Dans une vidéo, les dialogues sont un mode de référencement comme un autre

Par 12 octobre 2009 1 commentaire

Le système de l'université de Pennsylvanie enregistre les échanges entre les personnages d'un film ou d'une conférence pour les identifier et comprendre le contexte. Un moyen d'affiner la recherche sans recourir aux tags.

Pour améliorer la recherche sur les fichiers multimédia, les chercheurs de l'université de Pennsylvanie travaillent sur un système qui sera capable d'identifier le contexte et les personnages d'une vidéo sans que celle-ci ait été tagguée au préalable. Le dispositif, qui peut potentiellement être intégré aux moteurs de recherche vidéo, ou encore dans les systèmes de surveillance, se réfèrera à la fois au texte écrit - comme le script, les sous-titres ou encore les commentaires des internautes si le fichier circule sur le Net - et les informations audio, comme les dialogues entre les acteurs. Mais aussi à l'image : les visages qu'il aura identifiés et qui seront stockés dans sa base auront été visualisés sous différents angles et degrés de luminosité. Ce, afin d'être reconnus ensuite en toute circonstance. Il sera alors possible de taper un nom et d'obtenir des résultats précis et pertinents, même si les vidéos référencées ne contiennent aucun marquage hypertexte.
Reconnaître les objets sans les "labels"
Pour entraîner leur système, les chercheurs utilisent la télévision, et plus particulièrement les séries. Pourquoi ? "Il y a une alternance de scènes, les personnages réapparaissent d'une manière régulière, et sont filmés sous différentes vues", souligne à L'Atelier Timothée Cour, chercheur à l'INRIA qui a participé au projet. Autre avantage : "Quand vous regardez un film, vous savez qui est qui sans faire d’effort particulier", explique à L'Atelier Ben Taskar, responsable du projet. "Car les prénoms sont souvent prononcés : 'Bonjour, je m'appelle Jack', ou 'Susan, où est la voiture?'".
Un moteur de recherche rapide pour les vidéos
Le système fait de même, et décrypte les prénoms, la personne qui les prononce et à propos de qui. Le logiciel est capable également de réaliser certains montages. Par exemple montrer toutes les scènes où un personnage donné apparaît, ou celles tournées dans un lieu précis. Une fonction qui trouvera des applications en entreprises. "Celles-ci sont de plus en plus demandeuses d'un moteur de recherche efficace pour trouver des images et des vidéos de produits, de conférences...", poursuit Ben Taskar. Et de conclure :"Nous espérons créer un algorithme qui permettra de trouver des images sur Internet, sur les disques durs et sur les iPod, d'une  manière aussi simple et rapide que pour trouver des documents Word".

Haut de page

1 Commentaire

Cette technologie est déjà proposée aujourd'hui par la société alsacienne Xtensive Technologies, adhérent d'iconoval.
http://www.xtensive.com/

Soumis par Patrick Henry (non vérifié) - le 13 octobre 2009 à 11h00

Mentions légales © L’Atelier BNP Paribas