reCAPTCHA est un vrai atout dans la numérisation des livres anciens

Par 19 août 2008 1 commentaire
Mots-clés : Smart city

Mis au service de la digitalisation de millions de vieux ouvrages, le système d'identification CAPTCHA s'avère performant et économique. Paradoxalement, son utilisation massive pourrait être nuisible.

Un an après sa mise en œuvre - dont L'Atelier s'était fait l'écho - reCAPTCHA est un succès. Qu'est-ce donc ? Le filtre anti-spam CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Human Apart) permet déjà de distinguer un utilisateur humain d'un programme malveillant. reCAPTCHA sert quant à lui à la digitalisation de livres anciens. Lors du premier anniversaire de cette technique, les chercheurs de l'université Carnegie Mellon qui l'ont inventée, estiment qu'elle satisfait les standards requis dans l'industrie pour les services de retranscription humaine. Son taux d'exactitude dépasse en effet les 99 %. Pour mémoire, le processus de digitalisation des vieux livres se fait en deux temps. Les textes sont d'abord numérisés à l'aide d'un scanner. Ils sont ensuite convertis grâce à des logiciels de reconnaissance optique de caractère (OCR). Mais quand l'encre est passée et que le papier a jauni, ces OCR ne parviennent pas toujours à identifier les mots. Lesquels doivent l'être manuellement, ce qui coûte cher.
Reconnaissance optique de caractère
Dans la mesure où il utilise des images de mots analogues à celles que les OCR ne peuvent déchiffrer, reCAPTCHA pourrait permettre aux bibliothèques et aux sociétés qui font de la digitalisation de livres anciens de faire de grosses économies. Lorsque les visiteurs s'identifient grâce à CAPTCHA, ils aideraient ainsi simultanément à convertir des mots numérisés en texte indexable par un ordinateur. Déjà utilisé pour digitaliser des livres pour des archives Internet ainsi que des vieux numéros du New York Times, le système possède selon ses inventeurs un potentiel considérable. A la suite de Yahoo!, Hotmail ou Paypal, de plus en plus de plates-formes ont recours à reCAPTCHA. Bien que les personnes qui résolvent des CAPTCHAs n'y passent que quelques secondes et n'aient pas conscience de la valeur de l'opération, plus d'un milliard de reCAPTCHAs ont été résolus en un an, ce qui équivaut à la retranscription manuelle de plus de dix-sept mille livres.
Détournement du système
Comme l'explique à L'Atelier Marie-Elise Fréon, responsable des services de numérisation de la BNF, "l'idée de réutiliser la saisie de mots par des millions d'internautes de façon utile est intéressante et nous allons y réfléchir. Mais on ne sait pas comment le système repère les mots douteux à faire ressaisir. D'un point de vue industriel, cela pourrait être difficile à gérer". Il ne peut donc s'agir que d'une solution d'appoint aux OCR, qui ne cessent de s'améliorer. D'autant plus qu'un système de validation manuelle sera toujours nécessaire. Il faudra en effet toujours s'assurer que la personne qui retranscrit un mot ne fait pas d'erreur, et même pas d'erreur volontaire. "Paradoxalement, reCAPTCHA marche peut être d'autant mieux que les personnes n'ont pas conscience de faire de la correction. Si l'utilisateur finit par comprendre, il pourrait être tenté de vouloir détourner le système."

Haut de page

1 Commentaire

Bonjour,

nous sommes une société savante et nous aimerions faire numériser des livres très anciens ( XVé et XVIè s.) destinés à nos membres après accord avec des bibliothèques. J'aimerais
savoir si vous équipé pour ce genre ce genre de prestation ainsi que pour l'impression de l'ouvrage, quelles sont vos conditions et s'il est éventuellement possible d'obtenir un devis?
Merci de votre prompte réponse.

Monique Toussaint

Soumis par Toussaint Monique (non vérifié) - le 09 mars 2009 à 18h10

Mentions légales © L’Atelier BNP Paribas