La compression rend la voix sur Internet plus vulnérable aux écoutes

Par 16 juin 2008 1 commentaire

Il n'est pas nécessaire de décrypter les appels sur Internet pour identifier une partie de leur contenu, s'ils ont été compressés en utilisant certaines techniques.

L’utilisation de certaines techniques de compression de la voix facilite grandement la tâche des personnes malveillantes ayant des velléités d’écoute téléphonique sur Internet. Peu importe que les flux ainsi compressés soient ensuite chiffrés. Une équipe de chercheurs de l’université John Hopkins, à Baltimore, dans le Maryland, vient de publier des travaux dont c’est la conclusion. Ces techniques de compression sont attrayantes pour les fournisseurs de services car elles permettent d’utiliser moins de bande passante tout en conservant la qualité de la voix perçue par l’oreille humaine. La personne malveillante qui souhaite analyser la conversation a simplement besoin d’avoir accès au flux vocal chiffré et de savoir quels mots ou expressions rechercher, sans pour autant disposer d’exemples enregistrés sur lesquels se baser.  Les spécialistes de la reconnaissance vocale ont en effet développé des méthodes qui permettent de construire des modèles de mots sans nécessiter d’exemples identifiés de chacun.
La compression à débit variable est la fautive
Ce sont les codecs (codeurs-décodeurs) avec compression à débit variable (VBR, Variable Bit Rate) qui sont à blâmer. Ce type de codage n’est pas nouveau, il est par exemple utilisé de manière optionnelle pour créer des fichiers son MP3 et des vidéos MPEG-2. Son exploitation pour la transmission de voix sur IP l’est davantage. La compression à débit variable tire parti du fait que la parole est construite à partir de composantes élémentaires, les phonèmes, dont la complexité est très variable. Du coup, au lieu de transmettre un volume constant de données pour chaque intervalle de temps au travers de paquets IP à taille fixe, on peut varier la taille des paquets pour refléter la complexité des phonèmes : de petits paquets suffisent pour des phonèmes simples, et l’on conserve de plus gros paquets pour transcrire des phonèmes plus élaborés. C’est cette corrélation, qui subsiste une fois les données chiffrées, qui vend la mèche.
Des séquences deviennent identifiables d'après la taille des paquets IP
Les auteurs de l’étude ont réussi à reconnaître des mots et expressions avec une fiabilité moyenne de 50 %. Dans certains cas, la fiabilité dépassait 90 %. Pour arriver à ces résultats, nul besoin de tenter de décrypter le flux vocal, ni de disposer d’échantillons de la voix de la personne qui parle. Même avec 10 % de bruit, on obtient toujours une précision de 40 %. Pour rechercher des mots et expressions dans un flux vocal, les chercheurs ont adapté une méthode conçue pour rechercher des fragments de protéines connues dans une base de données : les acides aminés entrant dans la composition des protéines sont au nombre de vingt, tandis que le codec gratuit Speex utilisé dans les travaux de l’équipe de John Hopkins produit vingt-et-une tailles de paquets. Les variations entre les protéines d’une même famille s’apparentent aux différentes façons de prononcer la même expression.

Haut de page

1 Commentaire

bonjour je veux avoir les nouvelle sur la voix vulnérable et comment la protigé

Soumis par nadire (non vérifié) - le 22 juillet 2008 à 10h24

Mentions légales © L’Atelier BNP Paribas