Vers un data mining adapté aux usages propres au Web

Par 30 octobre 2008
Mots-clés : Smart city, Europe

Le projet hollandais Mista élabore des méthodes d'extraction de connaissances adaptées à Internet. Elles permettront notamment de prévoir plus rapidement la façon dont les internautes se comportent.

Étant donnée la somme de données qu'on trouve sur le Net et leur nature peu structurée, il est difficile d'en extraire des informations pertinentes aussi facilement que face à un simple catalogue. Fondé par l'organisation hollandaise pour la recherche scientifique (NWO), le projet Mista a pour objet l'élaboration de méthodes de data mining adaptées au Web, c'est-à-dire qui prennent en compte l'irrégularité de structure de données comme celles écrites en XML mais surtout leur très grand nombre. Les algorithmes mis au point par les chercheurs du projet ont diverses applications. Ils permettent d'analyser et même de prédire le comportement des internautes pour optimiser rapidement l'organisation des sites Web et obtenir de meilleurs taux de conversion."Les modèles construits par la plupart des méthodes d'extraction de connaissances ignorent l'ordre du parcours effectué par l'internaute", explique à L'Atelier Jeroen De Knijf, chercheur au département de science informatique de l'université d'Anvers.
Un processus prédictif dynamique
Si par exemple un internaute visite A, puis B, revient ensuite à A avant d'aller sur C, les méthodes de data mining traditionnelles ne prendront pas cette structure en compte et le parcours sera simplement encodé sous la forme : untel a visité A, puis B, puis C - ce qui est inexact. "Nous travaillons par ailleurs à la réduction drastique du nombre de patterns : de la sorte les modèles construits sont bien plus petits que l'ensemble des données analysées, ce qui optimise la prise de décision des designers de sites". Autre avantage des méthodes d'extraction mises en place par le projet Mista : elles se veulent dynamiques et non statiques. "Autrement dit, nos algorithmes prédictifs s'adaptent aux changements de comportement de l'internaute." Jeroen De Knijf prend l'exemple d'un site d'informations : l'intérêt des internautes pour les élections américaines est tel que bon nombre de sites se sont réorganisés de façon à ce que les pages concernant les élections soient plus facilement accessibles.
S'adapter rapidement aux changements de comportement
Mais quand les élections seront passées, d'autres news reprendront sans doute le dessus sur la politique étrangère. Les méthodes d'extraction statiques doivent alors repartir de zéro pour analyser ce changement et permettre aux propriétaires de sites Web de changer à nouveau d'architecture."Cela demande beaucoup trop de travail. Les informations sur le Web changeant en permanence, les modèles de prédiction sont souvent périmés avant même qu'on ait pu les utiliser." Edgar de Graaf, un collègue de Jeroen de Knijf, a enfin remarqué qu'il fallait prendre en compte le temps que chaque internaute passe sur une page, à quel moment etc. "Nous devons encore fouiller cet aspect temporel de nos motifs de conception : cela sera intéressant pour les sociétés de savoir quel jour leurs clients font des achats en ligne etc. Cela leur permettra d'être encore plus réactives".

Mentions légales © L’Atelier BNP Paribas