L'internaute, intermédiaire entre l'index et le moteur de recherche

Par 04 novembre 2008
Mots-clés : Smart city

Avec le système d'indexation décentralisé Minerva, les communautés d'intérêts les plus diverses connaissent l'existence de documents pertinents. Le contributeur garde cependant la main sur les documents qu'il détient.

Popularisés dans le cadre du partage de fichiers, les réseaux de pair à pair facilitent aussi la collecte d'informations. L'institut d'informatique Max Planck développe un moteur de recherche intitulé Minerva basé sur la technologie du P2P. Son principe ? Chaque utilisateur possède une collection de documents (pages html, pdf etc.) potentiellement intéressants pour d'autres internautes. Afin de les rendre disponibles, Minerva n'indexe cependant pas toutes les données du disque dur du contributeur mais seulement celles qu'il lui demande explicitement d'indexer. "Pour créer l'index que l'utilisateur souhaite mettre en commun, l'outil enregistre tous les documents convenant à chaque terme observé", explique à L'Atelier Sebastien Michel, un contributeur du projet travaillant désormais à l'EPFL. Minerva établit ensuite des statistiques pour décider dans quelle mesure un document correspond bien à un terme. "Jusque là, la pratique peut sembler similaire à celle des gros moteurs de recherche. La différence, c'est que tout ne se passe encore que sur un seul et même ordinateur".
Un index de collections de documents
Pour que d'autres utilisateurs du réseau puissent faire des recherches sur la collection de documents de leurs pairs, Minerva utilise une "hashtable" distributive. L'originalité de cette table est telle qu'elle assigne moins une valeur à chaque document en tant que telle qu'à chaque collection de documents. Autrement dit, quand on fait une recherche, le système ne publie pas les documents y correspondants. Il indique seulement le nom du ou des pairs dans les listes desquels se trouvent ces fichiers. L'utilisateur demande alors à son pair d'effectuer lui-même sa propre recherche sur son ordinateur pour lui fournir le document adéquat. "Minerva est comme un index où sont décrites les collections de chaque pair. Chacun garde le contrôle absolu sur ses documents."Le contenu des documents dont le copyright est protégé n'est donc pas envoyé à des instances centralisées.
Contenu audio et vidéo
"Même si leurs centres de calculs et de données  sont disséminés partout dans le monde, les architectures des principaux moteurs de recherche reposent sur de tels systèmes centralisés". Avec Minerva, point n'est besoin d'une telle instance pour gérer les requêtes : "Des millions d'utilisateurs forment potentiellement un immense système d'informations. Chaque utilisateur est responsable d'une petite partie de ce système global." L'outil n'est cependant pas destiné à détrôner les Google, Yahoo ! et autres MSN mais à permettre la mise en commun de ressources spécialisées au sein de communautés partageant le même centre d'intérêt. "Minerva peut par exemple être utilisé par des chercheurs qui souhaitent partager leurs travaux". Ce prototype est issu du projet de recherche européen Delis arrivé à terme en février. Depuis, le projet a été réintégré à un nouveau programme intitulé Sapir. Il s'agit désormais d'adapter le moteur à la recherche de contenus audio et vidéo.

Mentions légales © L’Atelier BNP Paribas