La veille sur les blogs est une simple question de vocabulaire

Par 30 septembre 2009
Mots-clés : Smart city

La méthode de référencement de l'Institut suédois en sciences informatiques analyse les similarités entre les mots employés. Cela permettra aux PME d'identifier aisément les communautés qui parlent d'elles.

La classification des contenus qui circulent sur les médias sociaux comme les blogs passe par des méthodes simples, juge l’Institut suédois en sciences informatiques. La preuve : une de ses équipes s'est attachée à un critère de base, la similarité du vocabulaire employé. Cette méthode, qu'ils baptisent eux-mêmes de "naïve", trie de façon pertinente les blogs en fonction de leur contenu. L'intérêt : permettre aux internautes de trouver plus facilement les blogs traitant des sujets qui les intéressent. Et aux petites et moyennes entreprises de disposer d'outils simples pour améliorer le contrôle de leur image sur le web en identifiant les communautés de blogs susceptibles de parler d’elles. Mais aussi de trouver des similarités entre des groupes qui parfois s'ignorent, afin de mieux cibler leurs campagnes marketing.
Choisir les mots à analyser
Tous les mots employés dans les blogs ne sont évidemment pas pris en compte. Sont éliminés ceux considérés comme trop communs, comme les articles, mais aussi les mots trop inhabituels. Ceux qui ne ressortent qu’une poignée de fois au cours de plusieurs mois s’avèrent souvent être des fautes d’orthographe qui viennent polluer les résultats. C’est dans cet entre-deux que l’analyse est effectuée. La méthode accélère le processus et en améliore la pertinence. En éliminant ces ensembles de mots, une certaine quantité de blogs sont de facto éliminés du champ de l’analyse. Ceux dont le contenu est trop réduit pour être classé, mais aussi et surtout la plupart des splogs (blogs poubelle). A partir des similarités observées, le logiciel établit ensuite un classement des blogs par groupes.
Etablir des communautés qui s’ignorent
Ces derniers représentent des communautés de contenu, même si leurs auteurs ne sont pas forcément en contact. Les catégories sont aussi diverses que peut l’être la blogosphère : politique, livres, technologie, musique... Les chercheurs notent qu’ils existent à l’intérieur même de ces groupes quantité de sous groupes qui révèlent autant de spécificités. Les blogs d’un groupe sont plus ou moins liés entre eux : il y a donc une hiérarchisation qui s’opère, et que le logiciel met en lumière sous forme de graphique. Les auteurs concluent en expliquant que la simplicité de leur méthode évite de créer artificiellement des liens à tout prix entre l’ensemble des blogs. Un travers dans lequel, disent-ils, tombent facilement les méthodes plus complexes.

Mentions légales © L’Atelier BNP Paribas