Comment reconstituer un son d’après l’analyse d’images

Par 25 août 2014
Projet du MIT

A l'aide d'une simple caméra, des chercheurs sont parvenus à reconstruire les sons émis autour d'un paquet de chips et d'une plante.

Transformer un paquet de chips en microphone, c’est le défi que vient de relever une équipe de recherche du prestigieux Massachusetts Institute of Technology (MIT), en collaboration avec des chercheurs de Microsoft Research et d’Adobe. Pour y parvenir, pas de gadget miniature digne des meilleurs James Bond. Mais une “simple” vidéo, accompagnée d’un puissant algorithme informatique. “Quand un son touche un objet, cela le fait vibrer, explique Abe Davis, un étudiante au MIT qui travaille sur ce projet. Ce mouvement, invisible à l’oeil nu, crée un subtil signal visuel. Les gens ne réalisaient pas que toute l’information dont ils avaient besoin était déjà là”. Ne reste plus qu’à l’exploiter pour recréer le son entourant le paquet de chips.

2000 à 6000 images par seconde

Le dispositif repose sur une caméra haute fréquence, capable de capter entre 2000 et 6000 images par seconde. C’est beaucoup plus qu’un smartphone (60 images par seconde), mais moins que les appareils utilisées par l’industrie du cinéma (jusqu’à 100.000 images par seconde). Cette caméra est capable de capter de très faibles mouvements, parfois limité à moins d'un centième de pixels sur une image (à titre de comparaison, une vidéo haute définition en 1080p contient plus de deux millions de pixels). L’algorithme entre alors en scène: il analyse les variations d’une image à l’autre, qu’il utilise pour retranscrire les sons. Malgré quelques parasites, le résultat est intelligible. Au cours d’un expérience, une caméra est située à un peu plus 4 mètres du paquet de chips, derrière une vitre insonorisée. Dans la salle, une bande sonore diffuse un discours. En utilisant les vibrations, les équipes du MIT sont parvenues à reconstruire ces sons. Malgré quelques parasites, le résultat est intelligible.

De la médecine aux Renseignements généraux

Une deuxième expérience est tout aussi concluante. Cette fois-ci, le paquet de chips est remplacé par une plante, laquelle est filmée. Et le dispositif reproduit une chanson pour enfant jouée dans la même pièce. “Big Brother ne sera pas capable, tout d’un coup, d’écouter tout ce que tout le monde dira”, nuance cependant Abe Davis. Cette technologie pourrait servir dans bien des domaines. En médecine, notamment, par exemple pour mesurer le pouls d’un nouveau né prématuré en filmant son poignet. Elle devrait aussi intéresser la police, pour reproduire les sons des caméras de vidéo surveillance. Et bien entendu l’armée et les services de renseignements, qui disposeraient alors de nouveaux moyens d'espionnage.

 

Mentions légales © L’Atelier BNP Paribas