BlogSum résume le web social, sans s'offusquer de l'orthographe

Par 01 octobre 2012
blog

Le système génère un résumé rédigé en réponse à une question donnée, sur une thématique, un produit, un service... Pour analyser le contenu des réseaux sociaux, il est capable d'interpréter l'opinion et les différentes orthographes usitées.

Si les entreprises sont de plus en plus nombreuses à sonder le web pour comprendre les attentes et les retours des consommateurs sur un service ou un produit, cela reste énergivore. Pour permettre l'accès à l'information en réduisant les délais, l'université de Concordia a mis au point un système qui balaie le web - et particulièrement le web social - et qui fournit un résumé rédigé, en réponse à une question donnée."D'énormes quantités de textes électroniques sont facilement accessibles sur Internet, mais les gens se sentent parfois dépassés et ont besoin d'aide pour trouver le contenu pertinent caché parmi la masse d'informations" explique Leila Kosseim professeur agrégée en génie informatique à Concordia. Son système a été baptisé BlogSum. Il n'est pas le premier à proposer des condensés du contenu issu sur le web. Tout son intérêt réside dans le fait qu'il analyse les propos édités sur des sites sur lesquels les gens s'expriment avec des orthographes plus ou moins irréprochables, et émettent des opinions, et des sentiments, plutôt que des faits. Pour ce faire, il doit donc analyser la langue écrite informelle.

Extraire des phrases

En fait, leur outil de synthèse extrait des phrases directement des blogs, donc s’il y a des fautes d’orthographe dans le texte, celles-ci seront présentes également dans le résumé. Toutefois "l’outil est en mesure d'identifier correctement la plupart des mots, mais nous ne les corrigeons pas", explique Leila Kosseim à L'Atelier. Si un mot n'est pas reconnu, il sera tout simplement ignoré lors de calculs, mais apparaîtra dans le résumé final. Ensuite, pour que le système comprenne les émotions et les opinions, ils utilisent Alpha, une approche standard de mots-clés basée sur le lexique subjectif MPQA (Multi-perspective Question answering). Ce lexique est une compilation de mots anglais classés par connotation et par degré. Par exemple le mot "colère" a une connotation négative forte, alors que le mot "charme" a une faible connotation positive et ce quel que soit le contexte. Enfin, les chercheurs ont développé une approche qui sélectionne le schéma textuel le plus approprié pour répondre à certains types de questions. Ce schéma définit l’organisation des résumés en se basant sur les relations de discours présentes dans les phrases qui seront potentiellement incluses dans le résumé.

Et après ?

Pour les sélectionner et savoir où elles seront placées, chacune d'entre elle est automatiquement étiquetée par les relations rhétoriques qu’elle contient. Ce qui permet ainsi de déterminer les positions spécifiques de chaque phrase dans le schéma du résumé. En examinant l’expression personnelle et les conversations réelles, le système est capable de mesurer des choses telles que les préférences des consommateurs ou encore les intentions des électeurs en triant les sites Web. Leur étude est un exemple de traitement du langage naturel (NLP), dans lequel s’investit l'Université Concordia, à travers le laboratoire CLaC. "Le domaine du NLP est utile dans de nombreuses applications quotidiennes, et contribue notamment à la fabrication de moteurs de recherche qui recensent des documents plus pertinents ou encore à rendre les smartphones encore plus intelligents", note Leila Kosseim.

Mentions légales © L’Atelier BNP Paribas