En 2007, le moteur de traduction automatique Google a apporté des nouveautés dans le domaine de la traduction automatique. Le système Systran qu'il utilisait jusqu'alors était conçu pour des ordinateurs individuels et était soumis à leurs limitations : il gérait des centaines de milliers de mots et d'expressions, avec des traductions possibles en appliquant des règles de grammaire qu'on lui avait inculquées.
Une autre différence notable est qu'avec Google traduction l'anglais se retrouve désormais au cœur du système[1]. Chez ses concurrents, l'espagnol par exemple étant directement traduit en français et réciproquement, Google traduit la langue source en anglais, puis retraduit de l'anglais vers la langue cible. C'est un système qui possède des similitudes avec le projet de traduction de langues distribuée, avec pour différence le fait que la langue-pont n'est plus une langue artificielle élaborée pour présenter le moins d'équivoques possibles, mais une langue réelle contenant des imprécisions.
Google, Systran et Promt
Le système Google, qui travaille à partir d'un centre serveur, est capable de jongler avec des milliards de mots et d'expressions, « provenant de textes monolingues dans la langue cible et de textes mettant en parallèle les deux langues »[2]. La grammaire est délaisée au profit des équivalences les plus rapprochées. Si Google ne trouve pas une expression dans sa base de données, il l'omet. Christian Boitet, Directeur du GETA (Groupe d'étude pour la traduction automatique) à Grenoble déclarait à ce propos : « Tout le monde peut constater que GoogleTranslate fournit des traductions apparemment « fluides », mais, au moins à 30 %, incompréhensibles, ou fausses, et surtout où des parties d'information ont disparu. »[3] Depuis les performances se sont considérablement améliorées.
L'accroissement des dictionnaires personnels ralentit le travail et le nombre des mots qu'il est possible d'y mettre n'est parfois pas illimité.
Étendue du vocabulaire
Du fait de la diversité de son vocabulaire, Google est avantagé dans le cas de sujets modérément techniques. Pour traduire, par exemple, « Erbkrankheit » Promt et Systran décomposeront le mot en ses deux éléments et donneront « maladie héréditaire », en face de « maladie génétique », plus précis et plus professionnel de Google. En revanche, si nous proposons « erbliche Belastung » (tare héréditaire), aucun des trois ne connaît « Belastung » dans ce sens et ils rendront le mot par son sens habituel de charge : « charge héréditaire » pour Google et « erbliche charge » pour Promt et Systran qui ignorent même l'adjectif. Avec ces deux derniers cependant, un médecin qui aura entré l'expression dans un dictionnaire utilisateur obtiendra désormais toujours « tare héréditaire », tandis qu'il n'a aucun pouvoir pour imposer cette traduction à Google[4].
Google en vient même à ne pas traduire ce qu'il ne comprend pas, ne le laissant même pas dans la langue originale. Avons-nous : « Many Jews now made a living by providing lodging and food for the masses of Hasidim who visited the Admor »[5] et la traduction sera : « Beaucoup de Juifs vivant aujourd'hui en offrant un hébergement et de nourriture pour les masses de Hasidim qui ont visité le Admor », « made a » est mis de côté comme s'il n'existait pas. On peut le vérifier en soumettant la même phrase débarrassée de ces deux mots : le résultat est le même[6].
Le cas des termes techniques
Dans le cas de textes techniques, l'étendue du vocabulaire dont dispose Google connait ses limites. Si nous lisons dans un article en allemand sur une espèce d'araignées la Brachypelma smithi :
« Oft richtet das Weibchen den Vorderkörper auf, um dem Männchen das Einhaken seiner Schienbeinhaken in ihre Beißklauen zu ermöglichen[7] », Google nous donne : « Souvent, la chienne vise les Vorderkörper, pour le mâle, le Einhaken son tibia Beißklauen crochet dans leur permettre », c'est-à-dire qu'elle traduit « Weibchen » par « chienne » et, devant des mots inconnus, n'essaie pas de les analyser comme Systran le fait dans les deux cas (« Souvent, la femelle redresse le corps d'avant, pour permettre accrocher de ses crochets de jambe sembler dans ses griffes mordre au mâle ») et Promt dans un seul (« La femelle dresse souvent le corps avant pour permettre le fait d'accrocher ses crochets de tibia dans ses Beißklauen au mâle »).
L'évolution de Google translate
Il est difficile de suivre dans des ouvrages, voire des articles, fussent-ils récents, une réalité aussi mouvante que la traduction automatique. Le Frédéric Kaplan[8] écrivait[9] :
« Demandez à Google Translate de traduire « Cette fille est jolie » en italien et vous obtiendrez une proposition étrange : « Questa ragazza è abbastanza », littéralement cette fille est « moyenne ». La beauté a été lost in translation. Comment un des traducteurs automatiques aujourd’hui les plus performants, capable d’utiliser un capital linguistique unique au monde, des milliards de phrases, peut-il faire une erreur aussi grossière ? La réponse est simple, il pivote par l’anglais. Jolie se traduit par pretty et pretty par abbastanza. […] Une fois compris ce principe, il devient dès lors aisé de produire des phrases traductions extrêmement étranges. L’expression idiomatique Il pleut des cordes se transforme en une expression très poétique Piove cani and gatti. Cette traduction directe de It rains cats and dogs est absolument incompréhensible pour un Italien. »
Mais, au , la première phrase se voit plus correctement rendue par Questa ragazza è bella ; quant à la seconde elle est réduite au simple Piove, évidemment moins précis mais plus exact. Malgré ces progrès l'utilisation de Google Translate reste délicate en dehors d'un cadre privé, c'est ainsi que la police de Copenhague s'est trouvée dans une situation gênante après avoir reconnu qu'elle avait interrogé un suspect sur la foi d’un SMS mal traduit par Google Translate[10].
Notes et références
↑Barbara Cassin, Directrice de recherches au CNRS, nous dit en passant dans Intraduisible et mondialisation que « L'offre multilingue tout comme l'offre de traduction, omniprésentes sur Google, pivotent effectivement toutes deux autour d'une seule et même langue, l'anglais, ou plus exactement, le globish. »