Un standard pour amorcer le lancement du web sémantique

Par 22 juin 2010
Mots-clés : Smart city

Le World Wide Web Consurtium propose de normaliser la manière dont les informations présentées sur Internet sont catégorisées. L'objectif étant d'étendre le champ d'exploitation des données en ligne.

Le Pew Research présentait récemment les spécialistes du web comme divisés sur la question d'une adoption rapide d'une forme d'organisation intelligente des ressources sur la toile. Pour espérer donner raison aux plus optimistes d'entre eux, Tim Berners-Lee* et le W3C annoncent en effet le lancement d'un nouveau standard qui devrait faciliter la mise en place du web sémantique. Baptisé Rule Interchange Format (RIF), cette norme fournit un moyen aux programmeurs web pour traduire les données présentes sur différents sites. L'objectif étant de favoriser un maximum l'interopérabilité entre ces derniers. "Dans sa version actuelle, le web est un fichier texte géant dans lequel on peut rechercher différents mots", expliquent les chercheurs du MIT."Le web sémantique se rapproche plus d'une base de données où chaque information est catégorisée et où de nouvelles requêtes peuvent combiner ces catégories de toutes les manières possibles", poursuivent-ils. Le problème, c'est qu'il appartient à chaque personne publiant sur le net d'organiser et de labelliser ces informations.
Les standards en place ont leurs limites
Or, rien ne garantit que cela soit fait de manière uniforme. Un standard (le Langage Ontologique Web) a déjà été mis en place pour y remédier en permettant aux programmeurs de spécifier que plusieurs catégories correspondent à un même type de données. Cette règle - qui fonctionne par exemple très bien pour les synonymes - a cependant des limites. Notamment si les administrateurs d'un site décident de rassembler sous une appellation générique plusieurs données qui pour un autre site constituent une catégorie à part. Par exemple, une entreprise publie sur son site Internet la liste de son personnel en distinguant noms de famille, prénoms et initiales. Tandis qu'une autre décide de rassembler toutes ces informations sous l'appellation "noms". Même si l'une et l'autre utilisent une technologie sémantique pour construire leur site, les données de l'une seront difficilement exploitables par l'autre.
Exploiter des données complexes
Pour éviter ce problème, le standard RIF introduit des règles informatiques autorisant les données à être exploitées quelle que soit la manière dont elles ont été rentrées. Une règle pourra ainsi stipuler que toutes les informations précédant le premier espace du répertoire évoqué plus haut appartiennent à la catégorie "prénom", et toutes celles situées après le dernier espace correspondent au "nom de famille". Avec un tel standard, il sera également possible d'exploiter des données complexes. Par exemple, un site ne conservant que les factures de ses clients mais pas de bases de données sera tout de même capable de déterminer lesquels ont dépassé un certain seuil d'achat donnant droit à l'abolition des frais d'expédition. Il sera également capable de déterminer l'adresse de livraison.
* qui dirige à présent le World Wide Web Consortium (W3C) au sein du MIT. Il est considéré comme l'inventeur du World Wide Web et le premier à avoir imaginé le web sémantique.

Mentions légales © L’Atelier BNP Paribas