La mise à jour des bases de données doit être orchestrée

Par 05 juillet 2011
Femme gèrant données

Si dans la gestion d'un site, il est difficile de repenser l'architecture d'affichage à chaque modification, il faut peut-être s'en remettre à des systèmes d'auto-maintenance qui reconnaissent la structure des informations.

Sur la Toile, les mises à jour de données et de leurs formats sont récurrentes, et parfois difficiles à orchestrer notamment quand il s'agit d'importantes bases. Il est donc nécessaire que les programmes enveloppant ces données et permettant de les afficher puissent suivre leur évolution afin de les exécuter sans erreurs. Dans le détail, ces programmes - nommés wrappers - qui enveloppent la réalisation d'un autre programme contenant des données, permet son aménagement dans un environnement spécifique, tel Internet. Concrètement, ils permettent à des informations que l'on retrouve sur Internet d'être correctement extraites. Des chercheurs américains de l'Institut des sciences de l'information de Californie du Sud et de la société Fetch technologies* ont ainsi développé Dataprog, un algorithme de maintenance de ces systèmes, dans le cas où des mises à jours interviennent et viennent altérer l'extraction de données.

Opération de maintenance

L'algorithme permet aux systèmes de détecter les modifications dans les modèles de données, et d'apprendre de ces changements par eux-mêmes. Pour cela, le processus fonctionne en deux étapes, qui permettent d'une part de détecter les défaillances (vérification), et de les réparer par la suite (réinduction). L'algorithme est capable de voir si chaque donnée est correctement liée et incluse dans le système. Pour cela la première étape de vérification permet l'analyse des noeuds entre les informations, correspondant au modèle indiqué par le programme. Dans un premier temps, celui-ci vérifie les liens entre les données, et génère en même temps des tests de pages web. Cela lui permettra de juger et de voir si l'extraction s'est bien déroulée. Si un test échoue, le processus s'en rend ainsi à la seconde étape.

Deux étapes interdépendantes

L'avantage de Dataprog est qu'il est capable d'appréhender plusieurs modèles d'extraction de données à la fois. Si une source web change son format, l'algorithme aura intégré la structure des informations antécédentes et toutes celles générées lors de l'étape de test durant la phase de vérification. A fortiori, le système connaîtra la manière dont les données sont liées, ce qui lui permettra par la suite de régénérer des liens. Au final, la précision des analyses s'est avérée être fiable à 97 %. A l'avenir, les chercheurs espèrent que ce type de système pourra supprimer le besoin qu'ont les utilisateurs de marquer les pages web.

Mentions légales © L’Atelier BNP Paribas