La reconnaissance d'images s'inspire du raisonnement humain

Par 08 décembre 2011
photographie

Afin de faire correspondre la recherche et la comparaison automatique de clichés avec le jugement d'une personne, des chercheurs se sont concentrés sur ce qui rendait chaque représentation unique

 

Comment améliorer la reconnaissance d'images ? En s'inspirant du raisonnement humain. Voilà en tout cas celui suivi par une équipe de Carnegie Mellon, qui a développé un système qui se concentre sur ce qui rend l'image unique en déterminant automatiquement l'élément le plus important suivant le contexte, au lieu de s'intéresser à la structure du pixel. Comme le font les solutions dites de match making. Ces dernières se concentrent sur des similitudes en termes de formes, de couleurs et de composition, ce qui peut s'avérer très utile pour trouver des images identiques ou très approchantes. Néanmoins, se basant sur l'analyse des pixels, elles se révèlent inefficaces sous certaines conditions : changements de saison ou de luminosité sur deux photos, impossibilité de faire le lien entre des dessins, des peintures, des plans et des photographies.

Trouver l'élément central de l'image

Ici, les chercheurs sont partis du constat que ce qui se retrouve le moins fréquemment dans l'intégralité des banques d'images est probablement ce que l'utilisateur recherche. Par exemple, si une photographie représente un monument avec un ciel nuageux et des voitures autour, le logiciel se concentrera sur le premier cité puisque les autres éléments seront bien plus communs. L'algorithme fonctionne également sur le principe de l'apprentissage automatique puisqu'il gardera en mémoire les associations les plus pertinentes, grâce aux choix de l'utilisateur, pour s'affiner. En se départissant d'une analyse sur la structure au pixel de l'image, l'algorithme peut aisément trouver des correspondances à travers plusieurs types de formats évoqués précédemment comme des photos, des crayonnés ou des peintures. Les chercheurs estiment avoir obtenu plus de 80% de réussite avec cette méthode, en utilisant un échantillon de 6,4M d'images.

Des perspectives intéressantes mais encore quelques limites

Cette innovation ouvre la porte à certaines applications. Le logiciel peut ainsi retrouver les équivalents actuels de lieux représentés sur des photographies historiques ou compléter des images tronquées. Les chercheurs envisagent également la création d'un programme permettant de localiser grâce à cet algorithme et à un GPS l'endroit exact où une photo ou encore un tableau ont été réalisé et ensuite l'afficher sur une carte. Mais le dispositif a encore ses limites. Tout d'abord, le processus dure pratiquement 3 minutes, se révélant trop long pour un usage grand public grâce à des moteurs de recherche. De plus, l'algorithme peine encore sur les images trop encombrées ne permettant pas d'identifier clairement un élément central.

Mentions légales © L’Atelier BNP Paribas