L'indexation sélective de fichiers allège le stockage

Par 14 octobre 2009
Mots-clés : Smart city

Les chercheurs indiens proposent un moteur de recherche où le crawler enregistre le contenu d'une manière incrémentale. Le but : rendre la conservation des données indexées moins gourmande en octets

Il y a un moyen de rendre le stockage des données indexées moins lourd, avancent les chercheurs de plusieurs universités indiennes*. Pour cela, il est nécessaire de surveiller uniquement les changements, et non pas les pages web entières. Selon le rapport, les crawlers actuels réactualisent les données par lots. Ce qui augmente le temps de procédure et, autre défaut, rend le trafic Internet plus dense. La nouvelle méthode propose de réindexer le contenu d'une manière incrémentale. Seules les parties du document qui ont changées depuis sa dernière manipulation seront enregistrées.
Réindexer uniquement le contenu nouveau
Et cela se fera dans un fichier différent : avec le même nom que l’original, mais une extension différente. La taille de ce fichier sera moins importante que celle d'un fichier contenant une page entière. Il ne pèsera que 5% du document entier, soulignent les chercheurs. Le système mettra à jour le fichier à chaque fois qu'un changement sera effectué dans le document hypertexte. Autre chose : la distinction explicite entre la partie dynamique et statique du document assurera une stabilité de chargement et minimisera les erreurs de transmission vers la partie statique.
Rendre les recherches plus efficaces
D'autres fonctions sont également disponibles, cette fois ci pour le calcul de pertinence. Le système affecte le poids de l'URL après analyse des réactions des internautes qui sont également stockées. Par exemple, la fréquence des clics sur le même URL permet au robot d'indexation de savoir quels sites sont les plus visités. Le système prend également en compte la manière dont l’utilisateur traite les résultats d’une recherche. Autre paramètre que la technologie considère : l'utilisateur a-t-il cliqué sur le bouton "suivant" ou "avancer d’une page". Si cela arrive, cela veut dire qu'il n'a pas trouvé les informations pertinentes sur la première page. Il va donc faire descendre ces URL inappropriées dans le classement.
* Chitkara Institute of Engineering and Technology, Vaish College of Engeneering et Rohtak Institute of Engeneering and Management

Mentions légales © L’Atelier BNP Paribas