L'identification de textes manuscrits rapide et bon marché ?

Par 04 janvier 2010
Mots-clés : Smart city

Pour authentifier les auteurs d'écrits non dactylographiés de manière simple et rapide, des chercheurs canadiens proposent une application open source qui traite la page dans son ensemble.

Les techniques d'authentification via la reconnaissance d’écriture gagnent en importance. Elles sont par exemple utilisées pour l’encaissement des chèques via téléphone mobile. Problème, elles nécessitent souvent l’utilisation de techniques d’analyse complexes, peu appropriées pour le traitement de données à grande échelle. C’est pourquoi des chercheurs canadiens de l’université de Concordia travaillent sur une méthode d’identification des écritures manuscrites rapide et bon marché. Pour commencer, les chercheurs proposent de s’intéresser à l'aspect de la page manuscrite dans son ensemble et pas uniquement à celui d'un mot. Dans le cas de larges volumes de documents, cela permet une classification de leurs auteurs grossière mais très rapide.
Considérer la page dans son ensemble
Outre l’authentification des chèques de banque, une telle méthode permettrait d’assurer l’absence d'usurpation d'identité sur des documents officiels, une classification automatique des courriers manuscrits, etc. Le processus démarre avec le prétraitement d'une page pour en éliminer le bruit (les caractères imprimés) et ainsi ne garder que les données pertinentes. L’application open source développée par les chercheurs en s’appuyant sur la plate-forme Marf* extrait ensuite les caractéristiques les plus saillantes de la page analysée. Si le système est en mode « apprentissage », ces caractéristiques - propres à chaque auteur de manuscrits - viennent alimenter la base de données de l’application.
Une analyse rapide mais encore peu précise
En mode « identification », elle vient comparer ces traits à ceux dont elle dispose dans cette même base de donnée. Pour tester leur application, les chercheurs ont comparé les réponses à un test de trois pages de 25 étudiants avec une base de donnée d’extraits manuscrits de chaque étudiant. Si les chercheurs reconnaissent que les résultats se sont avérés plutôt décevants en termes d’authentification, ils expliquent que tous les paramètres n’ont pas encore pu être étudiés. De nombreuses améliorations devraient donc pouvoir être apportées dans un futur proche. En revanche, le temps de traitement des données s’est avéré très rapide, il ne faut en effet qu’une poignée de secondes par échantillon pour être identifié.
* Modular Audio Recognition Framework

Mentions légales © L’Atelier BNP Paribas