Le langage des signes ouvre l'ordinateur à son environnement

Par 13 juillet 2009

Les universités de Leeds et d'Oxford veulent rendre une machine capable de lier un mot à son équivalent en langue des signes. Une telle initiative facilitera le développement de logiciels de robotique réceptifs à ce qui les entoure.

L'ordinateur peut-il apprendre une langue de manière autonome ? Une équipe de chercheurs anglais* a réussi à démontrer que oui, en se fondant sur celle des signes. Comme ils l'expliquent dans leur étude, leur objectif était que la machine soit capable de lier automatiquement un mot de la langue anglaise à une séquence vidéo montrant le signe associé. Pour ce faire, ils ont mis au point un logiciel qui traque la position et les mouvements de la tête, des mains et des bras des présentateurs des émissions qu'ils lui ont soumis. L'intérêt de ce type de recherche : développer des logiciels - par exemple en robotique - qui comprennent l'intention de l'utilisateur. Et qui seront capables de prendre des initiatives.
La vidéo comme support d'apprentissage
L'équipe s'est uniquement fondée sur des enregistrements d'émissions de la BBC sous-titrées et doublées en langage des signes par un présentateur. A partir de là, le système a découpé les heures d'enregistrements en séquences de gestes. Il a ensuite retrouvé, en comparant les sous-titres et les gestes observés, la correspondance entre les deux. Pour cela, il a dû surmonter deux difficultés, en misant sur la masse d'informations enregistrées et en comparant les gestes effectués à divers moments, pour un même mot. La première est qu'à un instant donné, le signe visible dans la vidéo et le mot sous-titré ne se correspondent pas forcément. Le langage des signes ne suit pas toujours le bon ordre syntaxique, car la personne qui effectue les signes sur l'enregistrement est souvent décalée par rapport au sous-titrage, qui, lui, suit systématiquement la bande-son.
Un taux de réussite de 65 %
Il existe donc dans les vidéos une distance temporelle entre les deux langages, la parole et le geste, même s'ils produisent finalement la même information. L'autre difficulté est que la présence d'un mot dans les sous-titres ne signifie pas forcément qu'il apparaît tel quel en tant que geste : selon le contexte, un pan entier de phrase peut être traduit par un seul geste, et non une succession de signes. L'ordinateur a dû apprendre les gestes de deux cents dix mots à partir des vidéos. Lorsque les chercheurs lui ont ensuite demandé de faire remonter automatiquement les séquences vidéo correspondant à certains mots précis - qu'il s'agisse de noms, de verbes ou d'adjectifs - la machine a réussi  dans 65 % des cas.
*Patrick Buehler et Andrew Zisserman de l'Université d'Oxford et Mark Evringham, de l'Université de Leeds.

Mentions légales © L’Atelier BNP Paribas