Un moteur explore les conférences universitaires

Par 09 novembre 2007 1 commentaire
Mots-clés : Future of Retail

Le MIT lance un logiciel qui divise par thèmes le contenu des conférences publiées sur son site afin de permettre aux étudiants d'accéder directement à un passage choisi. Les contenus audio sont retranscrits au format texte pour faciliter la recherche.

(cliquez pour agrandir)
La mise en ligne des conférences universitaires sous forme de podcasts représente un important progrès. Seul problème : un étudiant à la recherche d'une notion en particulier doit parfois écouter l'ensemble d'un cours avant de trouver le moment recherché. Pour résoudre ce problème, des chercheurs du MIT développent un moteur capable d'effectuer des recherches au sein du contenu des conférences mises en ligne sur le site de l'institut, et estimées pour le moment à plus de deux cents. Le moteur ne recherche pas au niveau de l'audio, chose très difficile à réaliser, mais retranscrit les conférences au format texte via un logiciel de reconnaissance vocale.
Retranscrire en texte pour simplifier la recherche
Toute la difficulté réside dans les termes techniques employés par les scientifiques, qui ne figurent pas tous dans la base de données du programme informatique, et qui doivent être entrés manuellement. Une fois la transcription effectuée, un programme de traitement linguistique divise le texte en plusieurs sections selon les différents sujets abordés lors de la conférence. Les groupes de mots sont ensuite comparés entre eux grâce à une formule mathématique afin de calculer le nombre de termes se recouvrant entre les différents blocs de textes.
Un système amélioré par la collaboration
Un degré d'importance est ensuite attribué aux notions selon le nombre de fois où elles ont été employées. Selon les chercheurs, les erreurs de reconnaissance des mots par le logiciel ne surviennent en grande majorité que sur des termes d'importance mineure, assurant la fiabilité du système. A terme, un dispositif de résumé de conférence sera ajouté au programme de traitement linguistique. Les utilisateurs devraient également être progressivement amenés à contribuer à l'amélioration du moteur, grâce à la mise en place d'un dispositif permettant de corriger soi-même les éventuelles erreurs de retranscription.

L'Atelier groupe BNP Paribas

Haut de page

1 Commentaire

Inspecteur du Trésor Public, docteur en droit, docteur en science politique, je souhaite poursuivre mes recherches dans le cadre de l'écriture de mes ouvrages : 9 déjà parus

Soumis par LOUISOR Georesges (non vérifié) - le 30 avril 2009 à 11h16

Mentions légales © L’Atelier BNP Paribas