Le Japon manipule les fichiers multimédia à la voix

Par 17 novembre 2008
Mots-clés : Smart city

L'institut AIST a mis au point une technologie pour recherche à la voix des contenus audio et vidéos présents sur le Web. Cette technique permet de s'affranchir des barrières de la langue.

Grâce aux avancées faites dans son indexation, le format texte est désormais relativement facile à rechercher sur le Web. Pour le National Institute of Advanced Industrial Science and Technology, ce constat ne s'applique malheureusement pas à tous les fichiers audio et vidéo consultables sur Internet. Ce, alors même que leur volume explose. Cet état de fait ne va peut-être pas durer. L'AIST dispose d'une technologie de recherche vocale à même de s'affranchir des principaux obstacles qui sont liés au multimédia : impossibilité de faire une recherche par mots-clefs pour retrouver des fragments précis, forte barrière de la langue etc.
allophones contre phonèmes
Jusqu'à maintenant, les systèmes vocaux butaient en sus sur un problème. Décomposer une requête en phonèmes ne fonctionne pas. Même si en phonétique, le phonème est considéré comme la plus petite unité que l'on puisse isoler en segmentant un mot, il peut correspondre à plusieurs sons. Comme expliqué sur Wikipedia, le phonème /r/ correspond aussi bien à un R parisien qu'à un R d'Occitan. Les chercheurs nippons se sont donc basés sur un sous ensemble du phonème, soit en anglais sub-phonetic segment (SPS). On peut imaginer que l'équipe de l'AIST a utilisé les allophones. Avec ce système, on peut faire la différence entre les différents R, à savoir [r], [ɾ], [ʀ] ou encore le fameux R roulé [ʁ].
mixer recherche vocale et textuelle
L'intérêt ? Le codage de l'index se fait avec un système internationalement reconnu, et donc indépendant de la langue de l'utilisateur ou du contenu. Tous les fichiers qui contiennent des néologismes, des noms propres sont susceptibles d'être retrouvés : plus besoin d'un dictionnaire de référence. Le fonctionnement du système devient simple. Le contenu est indexé via ses SPS. La requête de l'internaute va être elle-même être décomposée en SPS. Ne "restera" plus au moteur qu'à faire l'appariement. Pour les heureux japonophones, la technologie de l'AIST est disponible en test sur Internet : Voiser.jp permet aux chercheurs de tester en live la pertinence de leurs travaux. À terme, ils devraient également mixer leur système de recherche par SPS avec un service de recherche textuelle plus classique.

Mentions légales © L’Atelier BNP Paribas