Le web sémantique dessine l'Europe des médias

Par 13 décembre 2010
Mots-clés : Smart city, Europe
Pile de journaux

La monnaie peut être un bon vecteur pour donner une culture commune à des pays. C'est du moins ce qui ressort de l'analyse des flux de données des publications journalistiques européennes en ligne.

 

L’analyse automatique ne se limite pas aux données médicales ou physiques. Elle peut aussi donner de bons résultats quand on l'applique aux données appartenant au domaine des sciences sociales. Des chercheurs européens, des universités de Bristol, de Cardiff et de l’IPSC viennent de démontrer que les méthodes d’automatisation des tâches peuvent s’appliquer aux données numériques qui sont collectées dans des domaines comme celui de la presse écrite sur la Toile. L’idée des chercheurs a consisté à rassembler les contenus d’un nombre important de publications journalistiques en ligne, et d’en tirer du sens grâce aux outils statistiques existants. En analysant de façon automatique les contenus des journaux européens sur Internet, il apparaît par exemple que les pays de la zone Euro couvrent généralement les mêmes sujets, contrairement aux autres Etats de l'Union.

Analyser les flux RSS

Pour arriver à ces conclusions, les chercheurs ont commencé par sélectionner les dix principales publications en ligne (en fonction du trafic généré) des 27 pays membres de l’Union européenne, qui proposaient un flux RSS. “Le flux RSS permet en effet aux machines de collecter automatiquement, et simplement, les contenus de chacun de ces sites”, expliquent les auteurs de l’étude. Pour que la comparaison de ces contenus ait un sens, seules les unes des journaux sélectionnées ont été analysées par les scientifiques. L’ensemble des articles était d’abord traduit en anglais, par des logiciels de traduction dits SMT (pour “Statistical MachineTranslation”), afin de favoriser le travail des machines. Diverses solutions d’analyse automatique - comme la méthode BRH (pour “Best Reciprocal Hit”), qui consiste à rassembler les articles en fonction des mots clés qu'ils contiennent - étaient ensuite utilisées pour repérer des traits communs entre ces articles.

Etablir des corrélations entre plusieurs articles

Résultat : les outils existants permettent de déterminer si les journaux ont traité des mêmes sujets, et d’établir avec précision leur degré de similitude (similarité cosinus). Il a suffit ensuite de replacer les données résultantes sur un graphique de co-couverture médiatique pour constater visuellement que les médias français, autrichiens ou allemands possèdent de nombreuses connexions avec l'ensemble des autres pays, c'est-à-dire couvrent généralement les mêmes sujets. Quand la Lituanie, la Hongrie ou la Roumanie sont plus isolés. Pour mémoire, RichAnalysis proposait déjà de convertir des données brutes en cartes ou graphiques. Et l’analyse des appels téléphoniques a récemment permis de redéfinir les partitions géographiques des groupes ethniques, en Angleterre.

Mentions légales © L’Atelier BNP Paribas