Automatiser l'analyse des commentaires pour cerner les spammeurs

Par 29 mars 2011
Mots-clés : Smart city, Asie
Vol de spams

Pour identifier avec précision les commentateurs intempestifs qui postent sur les sites vidéo comme YouTube, il faut utiliser des indicateurs statistiques.

Les sites basés sur le principe du User Generated Content (UGC) n'amènent pas que du contenu de qualité. Sont également actifs sur les blogs, forums et plateformes telles YouTube de nombreux amateurs de parasitisme. Pour les repérer, Ashish Sureka, un chercheur de L’Indraprastha Institute of Information Technology à Delhi propose de se baser sur l’extraction de commentaires et sur des indicateurs de comportements issus d'une simple l'analyse statistique. Pour cela il a réalisé une simulation sur YouTube en mettant en place quatre indicateurs heuristiques* qui analysent - entre autres- la fréquence de certains commentaires, après les avoir extraits. Cela afin de détecter les spammers avec précision, en éliminant les faux positifs.

Indicateurs

Les indicateurs qui permettent au chercheur d’identifier les spammeurs sont multiples : durée moyenne espaçant les commentaires, pourcentage de commentaires signalés comme Spam, répétition de certains commentaires à travers différentes vidéos, répétition et redondance des commentaires. Ashish Sureka a ainsi pu identifier 240 utilisateurs à l’origine de 13 000 commentaires dans les vidéos les mieux notées de Youtube. De plus, 70 % des utilisateurs qui ont commenté plus de 60 fois ont été signalés comme spams. En d’autres termes, sa méthode cerne les spammeurs et élimine ceux qui ont été signalés comme tel, alors qu’ils ne le sont pas.

Extraction

Il est impossible de détecter les utilisateurs malveillants manuellement et il est donc nécessaire d’automatiser le processus pour identifier les spammeurs, d’autant que certains commentaires ne sont pas signalés comme Spam. Grâce à l’API YouTube, Ashish Sureka a pu extraire certains attributs des forums de discussion comme le texte des commentaires, l’étiquette temporelle, l’identité d’origine des vidéos et l’indicateur de Spam si celui-ci était présent. Par la suite, il a pu identifier les spammeurs grâce aux quatre indicateurs heuristiques qui lui ont permis de calculer une « intention de spamming » chez les utilisateurs.

* Indicateurs basés sur des critères mathématiques dont la performance est garantie par des algorithmes.

Mentions légales © L’Atelier BNP Paribas