Le basque est une langue de recherche comme les autres

Par 11 mars 2008
Mots-clés : Smart city

Le contenu audio et vidéo en basque peut être retranscrit de façon textuelle. Les internautes parlant cette langue seront donc à même d'effectuer des recherches dans du contenu multimédia.

Effectuer des recherches dans de la vidéo ou de l'audio après avoir converti le fichier audio en texte, ce n'est pas nouveau. L'Anglais Autonomy - entre autres - est depuis longtemps spécialiste du domaine. Mais les recherches s'effectuent généralement dans les langues les plus courantes, comme l'anglais. Le logiciel développé par l'école Polytechnique et l'université du Pays Basque s'attaque, lui, au basque. Son but : développer des systèmes informatiques capables de comprendre le langage naturel et de renvoyer à du contenu issu des principales chaînes de radio et de télévision basques. Principal défi de l'initiative : le basque est considéré comme une langue dite mineure. Et est donc très peu référencé sur le web. D'où la nécessité de créer presque entièrement une base de données et de l'entraîner à reconnaître un large panel de sons.
Ecouter et comprendre
Pour y parvenir, les responsables du projet utilisent les émissions des deux principales chaînes d'actualité télévisée basques, Gaur Egun et Teleberri. Le système ne doit pas nécessairement comprendre le contenu mot à mot, mais doit être capable de faire un résumé de ce qui a été entendu. Le but étant de le rendre apte à établir une relation entre les mots et les sons. Une fois la phase d'entraînement terminée, le logiciel devrait pouvoir comprendre tout programme diffusé sur l'une des deux chaînes. Plusieurs difficultés compliquent la mise en place de tout logiciel de reconnaissance du langage naturel. Même s'il est bien entraîné, certains mots et accents peuvent ne pas être reconnus aisément. Des bruits extérieurs peuvent également perturber le système. Autant de freins qui requièrent une grande précision de la part des chercheurs.
Hiérarchiser les sons
Une des solutions envisagées : l'utilisation d'équations mathématiques permettant de déterminer les données valables de celles qui ne le sont pas. La fréquence d'apparition d'un mot prononcé avec une certaine intonation est également prise en compte pour réaliser cette hiérarchisation. Seul bémol : il n'est pas encore possible de tester le système sur Internet, même d'une manière élémentaire. L'initiative peut paraître plutôt confidentielle, et réservée à un public restreint. Sauf que le but de l'équipe de chercheurs est de mettre au point un moteur universel, capable de comprendre plusieurs langues, comme le basque, l'espagnol et le français. Dans la même lignée, le moteur de recherche blinkx permet déjà de chercher des vidéos en plusieurs langues, grâce à sa technique de retranscription propriétaire. Mais celui-ci ne s'intéresse encore qu'aux langues dites majeures – Français, Allemand, Espagnol.

L'Atelier BNP Paribas

Mentions légales © L’Atelier BNP Paribas