Une image, c'est avant tout un code

Par 23 mai 2008

Le MIT développe un système qui extrait le code qualifiant les objets figurant sur une photo. But : tagger automatiquement les images sur le web. Ce, quelle que soit la qualité de résolution : le logiciel comprend le contexte.

Pour un logiciel, identifier une image sur Internet n'est pas une question de résolution ni de reconnaissance des objets et des formes. Tout est question de chiffres. Voilà la thèse défendue par une équipe du MIT, qui développe un système permettant de détecter quelle représentation numérique - c'est-à-dire quelle est la suite de bytes - qui correspond à une image. Ce, afin de réutiliser ensuite ce code pour qualifier automatiquement d’autres images. But de la manoeuvre : tagger automatiquement les millions d’images en circulation sur le Web. Et donc rendre plus performantes les solutions de recherche. "Nous essayons de trouver de très brefs codes pour chaque image", explique Antonio Torralba, du laboratoire d'Intelligence Artificielle et de Sciences informatiques au MIT. "Si deux photos ont une séquence de nombres similaire, cela veut certainement dire qu'elles sont composées plus ou moins du même objet (voiture, arbre) ou de la même personne".
Reconnaissance du contexte
Le nom associé à une image peut dès lors être appliqué à l'autre. Les solutions actuelles doivent se contenter des images légendées par leurs propriétaires. D’autres systèmes, comme celui développé par l’université de San Diego, détectent les différents éléments d’une image selon le contexte. La solution du MIT reprend cette notion : il souhaite rendre le logiciel capable de reconnaître un objet ou une scène selon le contexte, même si la qualité de la photographie est mauvaise. Les chercheurs ont ainsi mis au point un système informatique qui réduit le nombre de bits de données des photos à leur disposition. Une fois la manipulation effectuée, le logiciel a néanmoins été capable de reconnaître les objets qui lui étaient présentés quand ceux-ci étaient codés dans 256 et 1024 bits de données. Une représentation qui correspond à une image floue mais qui reste reconnaissable par un oeil humain, parce qu’il en comprend le sens général.
Une fiabilité partielle
En utilisant l’ensemble des codes représentant un objet ou une scène, les scientifiques ont ainsi été capables de reconnaître et légender près de treize millions d’images en circulation sur le web. Le tout, avec un ordinateur de base : le volume total des codes stockés dans la carte mémoire n’excédant pas 600 Mo. Reste que pour le moment, seuls les objets simples ont été codés et peuvent être reconnus par le système, comme des voitures, des fleurs ou des bâtiments. De nombreuses améliorations doivent encore être amenées. Mais selon Antonio Torralba, la perfection en la matière n'existe pas. Le chercheur, qui établit une comparaison avec le langage, rappelle que même une personne maîtrisant parfaitement une langue découvrira toujours de nouveaux mots.

Mentions légales © L’Atelier BNP Paribas