Pour dénicher une page disparue, il faut s'en référer à son titre

Par 19 avril 2010

Ce dernier permet de retrouver une page Internet lorsque son adresse html mène à un message d'erreur. Il constitue un indice stable, à condition de n'être pas trop général.

Lorsque les éditeurs d'un site effacent le contenu d'une page, celle-ci continue parfois à être référencée par les moteurs de recherche. Mais l'internaute qui la sélectionne tombe sur l'intitulé d'erreur "404/Page Not Found". Pourtant, explique une équipe de la Old Dominion university, cela ne veut pas dire qu'elle est définitivement perdue. Selon les chercheurs, elle a toutes les chances de se trouver dans le cache de ce qu'ils appellent "l'infrastructure du web". A condition que les principaux moteurs de recherche, tels que Google, Bing, ou Yahoo!, l'aient un jour considérée. Comment faire pour la dénicher ? Il suffit de mener une recherche basée sur le titre - qui est compris, dans le code source de la page, entre <title> et </title> - plutôt que par une analyse sémantique du contenu.
Une forte corrélation entre le titre et le contenu de la page
Pour y parvenir, ils ont mis au point un système qui recherche dans le cache des principaux moteurs le titre d'une ancienne page pour la faire remonter. En clair : leur dispositif lance une recherche dans la mémoire des moteurs basée non pas sur les mots-clés indiqués par les éditeurs pour le référencement mais sur l'ensemble du titre. Pour les chercheurs, ce dernier est en effet beaucoup plus stable que les mots-clés, qui peuvent avoir évolué si le contenu a lui aussi été quelque peu modifié au fil du temps. A condition toutefois qu'il s'agisse d'un "bon" titre. En effet, certains, générés automatiquement, ne fournissent pas de résultats probants. Les chercheurs ont en fait utilisé l'API de recherche de Yahoo! baptisée "API Boss" pour tester leur méthode. Et ont analysé les résultats en cherchant à déterminer, parmi les sept milles titres de page utilisés, ceux qui n'aboutissaient à rien de concluant.
Faire remonter 60% des URI recherchés
Les titres trop longs, ou comprenant des termes trop généraux, tels que "home page", "welcome" ou "index", ont ainsi été identifiés comme non pertinents. Mais dans l'ensemble, le système permet de faire remonter 60 % des URI recherchées dans les dix premiers résultats du moteur de recherche. Le but des chercheurs est désormais de mettre en place une base de données qui référence le plus grand nombre de ces pages réputées perdues pour créer une bibliothèque numérique accessible aux moteurs de recherche. Pour mettre au point ce corpus, ils collaborent avec plusieurs institutions telles que la bibliothèque du Congrès, et la bibliothèque numérique de Californie.

Mentions légales © L’Atelier BNP Paribas