Outils de traduction : combiner sémantique et statistique

Par 20 novembre 2008 1 commentaire
Mots-clés : Smart city, Europe

Réunir ces deux approches permettra de créer un outil de traduction disposant d'un vocabulaire étendu et capable de comprendre le contexte culturel. Un atout pour les institutions des pays ou communautés multilingues.

Un grand nombre de sites restent inaccessibles aux internautes, du fait d'un problème de langues. Un véritable problème, notamment pour les pays ou les communautés de pays multilingues. Rien qu'en Europe, il faut jongler avec vingt-trois langues. Plusieurs systèmes automatiques existent, mais ils manquent parfois de pertinence et sont élusifs, estiment deux chercheurs des universités de Lausanne et de Saarland. C'est pourquoi ils réfléchissent à un système de traduction intuitive capable de proposer en temps réel une version pertinente d'un texte ou d'un site. Celui-ci combine approche sémantique et approche statistique, deux techniques généralement abordées séparément dans le secteur de la traduction automatique. Ce système intuitif de traduction se révèlera particulièrement utile aux institutions et aux sites des administrations des pays multilingues comme la Suisse.
Un e-gouvernement multilingue
Il sera chargé de traduire automatiquement, et en prenant en compte les différences culturelles, les textes de lois et les actes et documents administratifs rédigés chaque jour, dans les quatre langues nationales. Les applications sont aussi nombreuses au niveau marketing : "les annonceurs pourront proposer des publicités dans la langue de la personne qui se connecte, en utilisant un lexique marketing adapté à sa cible", explique à L'Atelier Davide Picca, l'un des deux chercheurs. En entreprise, il permettra de créer une base de données multilingues qui facilitera la recherche dans la mémoire de l'entreprise. Techniquement, l'outil de traduction disposera simultanément de règles de traduction statistiques et de solutions de compréhension du contexte. "Notre idée est d'utiliser la méthode statistique à la base, celle-ci étant aujourd'hui considérée comme la plus prometteuse", souligne Marco Pennacchiotti, l'autre responsable du projet. 
Compréhension du contexte et analyse statistique
"La nouveauté, c'est que nous souhaitons y intégrer le plus de connaissances possible, réunies dans une base de données globale que nous avons appelée Méta Modèle Linguistique (LMM)". Cette base inclura des ressources linguistiques et extra-linguistiques, préexistantes ou nouvelles. C'est-à-dire qu'elle ne se contentera pas de stocker des mots, mais aussi des ressources culturelles sur un pays, afin de véritablement comprendre le contexte d'une phrase, ainsi que des expressions particulières. Les chercheurs n'en sont encore aujourd'hui qu'au stade théorique, et le premier prototype ne devrait pas voir le jour avant deux ou trois ans. C'est d'ailleurs pour cela qu'ils ont remporté la deuxième place du Swiss Computer Science Challenges, qui récompense les projets s'interrogeant sur les problématiques non encore résolues de l'informatique. Le but étant d'encourager la recherche suisse à se pencher sur ce que les organisateurs du concours appellent les prochains grands challenges du domaine.

Haut de page

1 Commentaire

Si par hasard le projet de traduction automatique, même par l'association des deux méthodes connues actuellement, venait à donner un résultat supérieur à la possibilité de saisir les grandes lignes d'un message qu'on connaît actuellement, les deux domaines cités seraient sans doute les derniers à utiliser cette technique:- la traduction de textes de loi, d'actes et documents administratifs a une importance telle qu niveau du terme précis et de la syntaxe qu'aucun juriste ne prendra le risque. Pour l'instant ces documents sont re-rédigés plutôt que traduits ou traduits et repris par un juriste.- le message marketing ou publicitaire est souvent allusif, basé sur des jeux de mots ou des clins d'eil, ici aussi c'est une transposition qu'il faut envisager, pas une traduction; d'ailleurs les agences de pub font traduire le document d'origine pour le récrire. Comme pour la traduction réglementaire il faut au moins 2 humains, et la machine ne sait pas même en remplacer un pour l'instant.Les correcteurs d'orthographe et de grammaire qui fonctionnent très bien depuis des dizaines d'années auraient pu par contre détecter qu'on ne conjugue par le verbe "incluer" mais "inclure" en français, c'est donc la forme "inclura" qui s'impose et non pas "incluera": les linguistes ont encore une petite place dans ce monde.Très bonnes remarques axées usages... Et merci aussi d'avoir repéré pour nous cette coquille.
Cordialement,
La rédaction

Soumis par Didier Fourcot (non vérifié) - le 14 décembre 2008 à 13h20

Mentions légales © L’Atelier BNP Paribas