Spécial IFA : quand le langage naturel se fait télécommande

Par 04 septembre 2008 1 commentaire
Mots-clés : Smart city, Europe

Le laboratoire de recherche d'IBM participe à un projet qui permettra de contrôler les appareils multimédia par la voix. Le dispositif reconnaîtra les questions posées en langage naturel, et agira en conséquence.

L’Atelier vous présentait hier l’iPoint Presenter, qui permet de se diriger sur un écran par le geste sans clavier ni dispositif tactile. Les solutions présentées à l’occasion de l’IFA exploitent également une autre ressource : la voix. Le laboratoire de recherche d’IBM a dévoilé une interface de reconnaissance vocale pour contrôler des appareils multimédia comme la télévision. Le système, développé dans le cadre du projet européen Dicit*, auquel la compagnie participe, comprend les questions posées en langage naturel par l’utilisateur. Dans le cas de la télévision, qui nous a été présenté, il est possible de demander un changement de chaîne, l’affichage du programme de la semaine, etc. "Nous avons à l’origine développé un système pour permettre aux automobilistes d’interagir avec leur appareil de navigation pendant qu’ils conduisaient. Le but est désormais d’apporter ces technologies dans le salon des particuliers", nous explique Roberto Sicconi, directeur de programme chez IBM.
Distinguer plusieurs voix
Le système est constitué d’une quinzaine de microphones embarqués dans une box et d’une commande vocale intégrée à la télécommande. "La connexion se fait par infrarouge", souligne le directeur de programme. Selon le responsable, les micros sont capables de reconnaître plusieurs voix, mais également de faire la distinction avec d’autres bruits et de les ignorer pour ne pas créer d’interférences. Ce qui permet d’envisager des applications marketing : interaction de réclames avec les passants... L’interface est encore à l’état de prototype, et ne devrait pas être commercialisé avant la fin 2009. "Le dispositif sera vendu sous licences aux fabricants, qui pourront l’intégrer à leurs produits", indique Roberto Sicconi. Autre initiative remarquée, celle du Fraunhofer - une fois de plus : l’un de ses instituts présentait la VoiceCam, une webcam capable de reconnaître la voix des différents interlocuteurs et de se tourner automatiquement dans leur direction afin de pouvoir les filmer quand ils discutent.
De la vidéoconférence à bas prix
Le tout, et c'est l’un des arguments principaux du dispositif, à bas prix. Il s’intègre en effet à une caméra web rotative, et est compatible avec les solutions de vidéoconférence standards. Techniquement, le système est constitué d’un logiciel de localisation et de tracking. Son module de localisation du son est basé sur deux microphones. Un système qui le rend adapté à la vidéoconférence depuis un PC portable ou un notebook. La VoiceCam s’adresse aux particuliers, mais surtout aux entreprises, comme les PME qui souhaitent faire de la vidéoconférence avec leurs salariés en déplacement. Couplée à un logiciel de tracking du mouvement, elle pourra aussi être utilisée dans des systèmes de sécurité. Selon Valiantsin Hardzeyeu, l’un des responsables du projet interrogé par L’Atelier, elle pourra aussi être intégrée dans des robots, pour qu’ils puissent localiser la source des sons qu’ils entendent.
*Distant-Talking Interfaces for Control of Interactive TV
Mathilde Cristiani, envoyé spécial de L'Atelier à Berlin

Haut de page

1 Commentaire

C'est une technologie très spectaculaire!
Mais je suis sceptique sur un point: si par exemple sur une émission de Canal +, le présentateur évoque le nom de TF1, qui nous dit que cela ne va pas changer de chaines?

En attendant, si la reconnaissance vocale et le langage naturel vous intéressent, je vous conseille ce blog: http://www.langage-naturel.fr

Soumis par thomas renaudin (non vérifié) - le 25 juin 2009 à 12h18

Mentions légales © L’Atelier BNP Paribas