La carte devient une donnée à rechercher

Par 27 janvier 2009

Un système capable d'extraire d'un document électronique toutes les représentations géographiques vient de voir le jour. En indexant les légendes qui y sont liées, il permet la consultation de cette famille d'illustrations.

Poussées par l'usage de services comme Google Map et les GPS, les informations géographiques deviennent des données très courues. Ce qui n'empêche pas les cartes contenues dans les documents numériques d'être totalement ignorées. Que ce soit dans les livres d'histoire, les revues, ou encore les pages web, celles-ci constituent pourtant un réservoir de savoir. Afin de faire cesser cette inexploitation, trois chercheurs de l'université de l'état de Pennsylvanie ont mis au point un système d'indexation. Le fonctionnement de celui-ci est le suivant. Les documents papiers sont numérisés, et transformés en documents PDF.
Séparation des images et des légendes
Ceux-ci subissent ensuite un traitement qui va séparer les illustrations et les graphiques du texte qui les entourent ou les concerne. Il reprend par exemple toutes les légendes qui suivent un FIG (pour figure). C'est l'analyse de ces légendes (nom de lieux, coordonnées, adjectifs idoines), l'indexeur va déterminer si l'image à laquelle elles se rapportent est une carte. Si c'est le cas, le moteur va classer les données en fonctions des domaines concernés (titre, coordonnées, objets qu'on trouve dans le lieu, etc.).
Prendre en compte les textes sur les cartes
Les légendes, ou métadonnées, seront stockées dans un index qui servira pour identifier si à une requête - poterie new york - correspond un document. L'outil de recherche n'est pas qu'un projet : il est déjà déployé. Dans le futur l'équipe (Qingzhao Tan, Prasenjit Mitra et C. Lee Giles) vont perfectionner le système. Premier axe d'amélioration : prendre en compte les annotations faites sur la carte elle-même. Deuxième axe : tester d'autres algorithmes de classification. La dernière piste que les universitaires comptent suivre est d'intégrer dans leur solution la possibilité de faire des requêtes avec des coordonnées spatiales (longitude, latitude).

Mentions légales © L’Atelier BNP Paribas