Sur les forums, les messages sponsorisés sont désormais identifiés

Par 24 janvier 2013
SPAMS

En analysant la sémantique des messages postés et l’historique des intervenants sur les sites communautaires, il est possible de repérer automatiquement les spams.

Depuis l’avènement du Web social, la moindre question trouve une réponse sur des sites communautaires comme Yahoo! Answers ou Doctissimo. Mais comment s’assurer que derrière l’aimable internaute qui vous conseille ne se cache pas un message commercial, sponsorisé par une entreprise ? C’est la question que s’est posée une équipe de chercheurs indo-canadiens*. Ils proposent donc un système capable de repérer les spams cachés parmi les réponses des internautes et d’en avertir l’utilisateur. Pour le bien de leur étude, les chercheurs ont repéré 11 produits faisant régulièrement l’objet de campagnes sponsorisées sur le site Baidu Knows (l’équivalent chinois de Yahoo! Answers). Sur une période de trois mois, ils ont ensuite récupéré toutes les questions dont ces produits constituaient la « meilleure réponse ».  Au total, ils ont donc analysés près de 5000 questions parmi lesquelles 43 % environ ont pour meilleure réponse une offre sponsorisée. Les chercheurs ayant délibérément cherché des noms de produits suscitant du spamming, il est normal que ce ratio soit anormalement élevé.

Quelle est la fiabilité des intervenants ?

La difficulté résidant dans le fait que ces messages ne sont plus seulement l’œuvre de robots se contentant de copier coller en quantité industrielle un même message qu’il est alors facile de repérer. Pour poser le problème plus concrètement, un tel outil devrait permettre à un internaute, tombé par la magie de Google sur un forum où l’on discute régimes, si « internaute75 » qui assure avoir trouvé le produit miracle est sincère ou sponsorisé. Voire si lui et « internaute13 » - qui a lancé le débat et l’a si complaisamment remercié - ne sont pas une seule et même personne. Ils ont donc analysé les différences entre les réponses sincères et les spams afin d’élaborer un algorithme capable de repérer les seconds automatiquement. L’idée étant de déterminer la fiabilité des intervenants, ils ont regardé à combien de posts sponsorisés ils ont participé dans le passé. Et ce aussi bien pour l’internaute qui pose la question que pour celui qui y répond (pour la raison évoquée plus haut).

Une base de données perpétuellement enrichie

L’équipe de scientifiques effectue également une recherche sémantique sur les messages postés pour déterminer statistiquement la proximité des mots employés avec ceux utilisés dans les spams. A partir du système de détection et de la base de données ainsi développés, les chercheurs ont bâti un prototype en ligne censé pouvoir fonctionner en temps réel. A chaque fois qu’un internaute ayant intégré l’outil à son navigateur Internet accède à une page de type question / réponse, l’url de cette page est envoyée à un serveur qui va l’analyser. Quand il repère un spam (en le comparant avec ceux présents dans sa base de données), il en avertit l’internaute. Mieux, le système s’enrichit de chaque requête et alimente sa base de données qui devient ainsi plus précise.

* des départements de science informatique de l’université de Victoria (Canada) et Bits-Pilani (Inde)

Mentions légales © L’Atelier BNP Paribas