Les captchas audios sont plus vulnérables que les autres

Par 28 juin 2011
Captchas audio

Contrairement aux captchas visuels, les captchas audio présentent des failles de sécurité. Des chercheurs proposent d'utiliser l'apprentissage statistique pour mettre au point des captchas audios moins vulnérables.

Des chercheurs des Universités de Stanford, de Tulan et de l’INRIA ont démontré dans une étude* que les captchas** audio sont vulnérables aux attaques automatiques telles botnets ou spams. Un comble, quant que leur but premier est d'éviter les attaques de machines. Les chercheurs ont étudié plusieurs sites qui utilisent ces captchas, dont eBay, Microsoft Live.com, ou encore Yahoo, et ont réussi à les mettre en défaut grâce à leur programme Decaptcha. Il existe deux types de captchas : les visuels, qui utilisent les images distordues comprenant des lettres que l'utilisateur devra retranscrire, et les audio, qui utilisent une voix informatisée lisant des chiffres ou des lettres distordu qu'une machine automatique  ne devrait pas être en mesure de comprendre.

L’analyse auditive moins performante que l’analyse visuelle

Un bon captcha doit être facile à comprendre pour les humains, mais difficile à comprendre pour les machines. Un objectif souvent atteint avec les captchas visuels, mais apparemment pas dans le cas des captchas audio. Pourquoi ? L'explication est simple : "70% de notre cerveau est consacré à la vision. On peut donc créer des captchas visuels complexes que nous saurons comprendre, mais ce n'est pas le cas des captchas audio", explique à l’Atelier, Elie Bursztein, membre de la recherche à l’université de Stanford. Si ces derniers sont trop complexes, nous ne savons pas les interpréter. Simplifiés, ils deviennent faciles à mettre en défaut. Pour mettre en échec les captchas existants, les chercheurs se sont appuyés sur un principe courant en intelligence artificielle, "l'apprentissage statistique". Cela consiste à donner des exemples de son déformés à l’algorithme ou au programme à partir desquels la machine va construire un modèle.

Des alternatives doivent être développées

C’est ce modèle qui va donc permettre de reconnaître et d’analyser des échantillons audio qu’il n’a jamais entendus, simplement grâce à ce qu'il aura appris avant. Après avoir entraîné l’algorithme sur un jeu d’exemples audio, ce dernier est finalement capable de reconnaître des sons pourtant déformés.  « Il reste à inventer de nouveaux modèles de captchas audio plus sophistiqués Bien sûr, il existe des pistes mais on ne sait pas encore ce qui marche » explique Elie Bursztein. Une des pistes évoquées dans le papier est l'approche de Recaptcha.net, qui a su résister la plupart du temps aux attaques de Decaptcha. Ce dernier s'appuirait sur une méthode de "bruits sémantiques", que les humains arriveraient à interpréter correctement, mais pas les machines.

*The failure of noise-based non-continuous audio captchas

** Completely Automated Public Tuning test to tell Computers and Humans Apart. Une forme de test permettant de distinguer de manière automatisée un utilisateur humain d'un ordinateur

Mentions légales © L’Atelier BNP Paribas