Ordinateur face au langage : l'homme vient à la rescousse

Par 26 janvier 2009 Laisser un commentaire

La compréhension d'un discours par un système informatique est souvent sujette à caution. Phrase Detectives tente de l'améliorer en y amenant du savoir humain.

"L'Atelier, cellule de veille de BNP Paribas fête ses 30 ans à Paris. Elle vient à cette occasion de changer de logo". En lisant cette phrase, tout lecteur comprend et classe des caractéristiques propres à L'Atelier, et est capable de lier le mot "L'Atelier" avec le pronom "Elle". L'ordinateur, lui, établira les connexions de façon souvent incorrecte. D'aucuns voient le web sémantique comme la solution. L'université d'Essex, elle, fait le pari de l'humanisation. Elle met en ligne un système pour que les internautes affinent les systèmes de compréhension automatique du langage. Baptisé Phrase Detectives, il demande aux participants de relier différentes propositions entre elles, d'attribuer des pronoms à des noms ou des phrases.
Plusieurs genres littéraires
Ou encore de retrouver les propositions équivalentes les plus proches, etc. Une fonction de commentaire fait également partie de l'outil. Selon les organisateurs, 40 000 annotations ont déjà été enregistrées en quatre semaines d'existence. Le jeu propose plusieurs options. L'internaute décide du niveau de langage du document (pour débutant, simple, moyen, ou complexe). Il faut aussi choisir entre plusieurs systèmes d'apparition des textes, de leur taille, etc. Pour aider les membres, Phrase Detectives leur propose plusieurs "genres" littéraires : roman, amusement, voyage, science, histoire, inusuel, et générés par les utilisateurs du site. L'initiative de l'université d'Essex rappelle une autre expérience réalisée cette fois l'université Carnegie Mellon.
Vers des "games with a purpose" en entreprise ?
Des chercheurs s'étaient attelés à l'amélioration de la reconnaissance optique de caractère (OCR) pour la numérisation des livres anciens. Pour cela, ils avaient mis au point reCAPTCHA (Completely Automated Public Turing Test to Tell Computers and Human Apart). Ce système enrôle les internautes, souvent lors d'inscription sur des sites. Pour s'enregistrer, ils ont le devoir de reconnaître des caractères ou des mots qui apparaissent. Quand un mot a été identifié par de nombreux internautes, il est attribué à la séquence numérisée, et sert à améliorer le fonctionnement du logiciel d'OCR. On attend avec impatience des "games with a purpose" en entreprise, utilisés pourquoi pas pour classer des fonds documentaires, ou améliorer des développements internes.

Haut de page

Vos commentaires

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.
Le contenu de ce champ sera maintenu privé et ne sera pas affiché publiquement.
  • Aucune balise HTML autorisée
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plus d'informations sur les options de formatage

En soumettant ce formulaire, vous acceptez la politique de confidentialité de Mollom.

Mentions légales © L’Atelier BNP Paribas