Les sessions parlementaires suisses indexées automatiquement sur le web

Par 05 janvier 2010
Mots-clés : Smart city, Europe

Le moteur de recherche de l'Idiap parcourt les archives vidéo du parlement de Valais. Celles-ci sont catégorisées sans intervention humaine grâce à un système qui reconnaît le texte des bandeaux télévisuels.

En Suisse comme dans de nombreux pays, les sessions parlementaires sont enregistrées et diffusées à la télévision. Les archives sont ensuite accessibles sur Internet. Problème : retrouver les interventions d’un député en particulier ou celles portant sur un sujet précis relève souvent du parcours du combattant. Pour simplifier cette démarche, l’Idiap propose un moteur de recherche qui utilise la reconnaissance du texte dans les vidéos pour indexer les interventions des députés. " Le logiciel traite et scanne chaque image pour détecter, localiser et reconnaître automatiquement le texte affiché dans la vidéo, au niveau du bandeau télévisuel ", explique à L’Atelier Maël Guillemot, l'un des responsables du projet*. " C'est automatique, sans intervention humaine ".
Identifier les séries de caractères
Ceci est facilité par le fait que pour les sessions du parlement de Valais (que les chercheurs ont utilisés pour développer leur application), un bandeau apparaît dès qu'un député prend la parole. Il indique le nom du député, le parti et le sujet discuté. " Sur chaque groupe de caractères reconnu, un algorithme de OCR** est ensuite appliqué afin d'indiquer la série de lettres qui correspond aux pixels avec la plus grande probabilité ", explique le chercheur suisse. Il a fallu pour cela surmonter plusieurs difficultés. Par exemple, le fait que le bandeau ne soit pas complètement opaque et que l'image derrière celui-ci varie dans le temps. Par ailleurs, le texte passe du français à l'allemand toutes les 15 secondes.
Accéder directement à la partie de la vidéo qui intéresse l’utilisateur
Du point de vue de l’utilisateur, le système suisse s’apparente à un moteur de recherche classique. Il suffit d’entrer le nom d’un député ou un mot clé pour se voir proposer la liste des interventions correspondantes. " Le serveur analyse la requête et y répond instantanément en allant rechercher la réponse dans une base de données pré-indexée contenant tous les résultats ", poursuit Maël Guillemot. Il devient donc possible d’accéder à la partie exacte de la vidéo qui intéresse l’internaute. D’après les chercheurs, un tel système pourrait servir à indexer les archives de l’INA ou les plates-formes de type Youtube ou Dailymotion. A plus long terme, on peut envisager de compléter l’indexation en lui ajoutant la reconnaissance vocale ou l’identification automatique des députés intervenant.
* Maël Guillemot est Pdg de Klewel, une société essaim issue de l'Idiap.
** Optical Character Recognition

Mentions légales © L’Atelier BNP Paribas