Diadem déduit la structure des sites en fonction de leur domaine

Par 09 décembre 2009

Oxford travaille sur un moteur qui présume de l'agencement d'un site selon son secteur : restauration, immobilier... Le but : aller puiser des informations pertinentes sans connaître en amont la plate-forme web.

La plupart des moteurs s’appuient sur la recherche par mots-clés. Le problème de cette méthode, souligne une équipe de l’université d’Oxford, c'est qu'elle rend difficile l'affichage de résultats liés à des requêtes complexes et localisées dans le temps et l'espace. C’est pourquoi ils ont mis en place le projet Diadem* : celui-ci sera capable de chercher dans les sites des informations répondant avec exactitude à la demande de l'internaute : horaires de train, appartements à visiter dans un quartier… Même ceux avec lesquels il n'a pas été familiarisé. Pour y parvenir, le système devra simplement identifier le domaine auquel appartient la recherche, comme l'immobilier, le tourisme ou le transport. Les chercheurs s’appuient pour cela sur les similarités qui existent entre les sites d’un même secteur.
Comprendre la structure des sites explorés
Le logiciel sera donc configuré pour avoir une connaissance de base du fonctionnement des sites du domaine en question. "Les êtres humains comprennent rapidement la manière dont un site sur lequel ils se rendent pour la première fois est organisé et la signification des différents éléments qui le composent", explique le professeur Georg Gottlob, le responsable du projet. "Les ordinateurs, en revanche ont du mal à en comprendre la structure et peinent à en manipuler le contenu". Résultat, il est difficile de leur faire comprendre des horaires de train, ou le prix d’un objet dans un site. Sauf si l’ordinateur a été spécialement configuré pour chercher les informations sur un nom de domaine en particulier. Mais cela implique qu’un être humain ait pris le temps de lui montrer à quoi correspondent les pages. Impossible à entreprendre quand la recherche concerne un très grand nombre de sites.
Spécialiser le moteur de recherche
D’autant que le moindre changement apporté à une plate-forme vient perturber cet apprentissage. La méthode des chercheurs résout ce problème en spécialisant leur moteur de recherche. "Cela va dynamiser la capacité des individus et des entreprises à parcourir le web pour obtenir les informations dont ils ont besoin", affirme Georg Gottlob. Le chercheur espère conclure son projet en ayant bâti un système capable de s’occuper du marché de l’immobilier d’un pays donné. Les résultats présentés ne seraient alors pas de simples liens mais une véritable base de données faites des informations récupérées sur les différents sites. Le projet Diadem vient de se voir attribuer une bourse de plusieurs millions d’euros par le Conseil de Recherche Européen, qui dépend de la Commission Européenne. Plusieurs sociétés dont Google, Yahoo! et Microsoft ont déjà exprimé leur intérêt pour le projet.
* Domain-centric Intelligent Automated Data Extraction Methodology

Mentions légales © L’Atelier BNP Paribas