Tesaurvai veut automatiser la création de thésaurus

Par 24 avril 2008
Mots-clés : Smart city

Cette solution assure la création de corpus de termes spécifiques à partir de documents non structurés. Son but : améliorer la recherche documentaire au sein de l'entreprise.

Le logiciel est l'avenir de la création de thésaurus. Cet ensemble de termes clés hiérarchisés et représentant les concepts d'un domaine spécifique peut être généré de façon automatisée, selon les chercheurs du centre madrilène Validation and Business Application Group. Ces derniers viennent de présenter leur solution baptisée Tesaurvai. A en croire ses inventeurs, cette application serait capable d'extraire, annoter et organiser un ensemble de termes spécialisés issus d'une série de textes numérisés et non structurés. Son fonctionnement repose sur le duo extracteur terminologique - solution permettant l'analyse de textes et la détermination de leurs mots-clés - et interface de création de thésaurus. Un mode deux en un qui constitue le principal attrait de ce logiciel à destination des entreprises.
Analyse et création
"Les outils de catégorisation habituels vont extraire les mots-clés et les attacher à des thésaurus préétablis par les utilisateurs", commente Basheer Dargham, architecte logiciel pour le cabinet spécialisé en ingénierie documentaire 4D Concept. Dans le cas de Tesaurvai, le thésaurus peut être constitué après coup, suite à l'analyse approfondie des documents par le logiciel. Celui-ci serait ainsi capable d'extraire des expressions comprenant entre un à dix mots. "L'idée est de fournir un certain nombre de termes caractérisant un métier, puis de se baser sur ceux-ci pour constituer son thésaurus", précise l'architecte logiciel. Un bémol : le degré d'automatisation de la création du thésaurus n'est pas spécifié par le Validation and Business Application. "Cette solution semble aller beaucoup plus loin que les outils de catégorisation, mais sa portée est encore à déterminer", estime Basheer Dargham.
L'automatisation en question
La question de l'évolution de ces applications documentaires et de leur degré "d'intelligence" est ainsi posée. "Dès qu'on traite des documents et formats et langage naturel, il y a une complexité qu'on n'arrive pas à surmonter avec la machine. Les solutions de ce type entièrement automatisées ne sont pas pour demain", ajoute Basheer Dargham. Rappelons que la constitution de thésaurus trouve sa principale application en recherche documentaire au sein des entreprises. Tesaurvai est utilisable avec les bases de données estampillées Java. Il permet également l'importation et l'exportation des thésaurus au format XML. "Une telle compatibilité favorise l'intégration à un moteur de recherche ou avec d'autres systèmes d'information", conclut Basheer Dargham. Encore en phase de test, cette solution sera accessible en juillet 2008.

Mentions légales © L’Atelier BNP Paribas