Quand l'extraction de données simplifie la compréhension du web social

Par 17 octobre 2012 1 commentaire
data mining

Pour identifier des informations pertinentes parmi la multitude de contenu non structuré, un moyen est de combiner solutions d'extraction de données et outils sémantiques.

Pour acquérir une meilleure compréhension de l'ensemble du marché, les entreprises doivent de plus en plus nécessairement être capables d'exploiter les avis de leurs consommateurs laissés sur la Toile. Si certains projets travaillent sur la création de résumés des contenus laissés sur les sites, même sociaux, et en réponse à une question posée par la marque, d'autres s'intéressent plutôt au web sémantique. C'est le cas de l'approche décrite dans une étude* de la Hebrew University et de la Columbia Business school. Une équipe de chercheurs de ces universités a mis au point un outil d'extraction de texte (text mining), capable de regrouper et analyser du contenu depuis les médias sociaux. Ainsi, cela permet de traiter la quantité d'information colossale comme les commentaires laissés sur des blogs, des forums en ligne, ou des sites d'évaluation de produits.

Un mappage du marché

Le système combine une approche, donc, de fouille dans les données et des outils d'analyse sémantique. Le premier, basé sur l'intelligence artificielle, extrait l'information venue de textes non-structurés et l'outil sémantique les convertit en données quantifiables en relevant les similitudes et des associations de termes. Cela génère un réseau sémantique qui fournit à l'entreprise ou au chercheur un aperçu significatif de la structure du marché, et des relations significatives qui s'y trouvent. Et d'obtenir un paysage concurrentiel sans poser une seule question aux utilisateurs. Les chercheurs ont testé cette approche sur deux cas, les voitures du type berline et les médicaments contre le diabète.

Un système précis

Après avoir téléchargé les pages web d'un forum par exemple, le système les nettoie en supprimant les informations inutiles. Puis, il garde l'information faisant mention d'une marque, d'un produit et de ses attributs dans le message d'un utilisateur. Celui-ci sera ensuite divisé dans plusieurs groupes différents : discussion, message et phrase. Le système identifie les relations sémantiques en générant un réseau de cooccurrences du produit mentionné sur le forum. Cette analyse donne la structure du marché global et dans un deuxième temps fournit les relations entre le produit et les termes. Pour les berlines, le système aurait identifié et classé correctement 91,6% des informations et 94,1% pour les médicaments contre le diabète.

* Columbia University, Hebrew University of Jerusalem, Mine Your Own Business: Market-Structure Surveillance Through Text Mining (2012)

Haut de page

1 Commentaire

bjr,

Il y a des sociétés françaises comme Mondeca qui font aussi cette activité. leurs outils vont même plus loin en liant les données du web et les données d'entreprises.

Soumis par Lacassaigne Philippe (non vérifié) - le 05 novembre 2012 à 10h09

Vos commentaires

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.
Le contenu de ce champ sera maintenu privé et ne sera pas affiché publiquement.
  • Aucune balise HTML autorisée
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plus d'informations sur les options de formatage

En soumettant ce formulaire, vous acceptez la politique de confidentialité de Mollom.

Mentions légales © L’Atelier BNP Paribas