Le service permet également la traduction de pages Web, même longues. Depuis , une limitation de 5 000 caractères traduits est posée, mais elle n'affecte pas la traduction d'une page web via son URL[1]. Les hyperliens des pages Web traduites restent fonctionnels et la navigation entre pages Web traduites est assurée, parfois partiellement.
Google Traduction, comme les autres outils de traduction automatique, a ses limites. Les textes traduits contiennent encore des approximations et des faux sens. Par exemple, l'outil confond les contextes d'énonciation et en déduit des sens non pertinents ; parfois, la grammaire n'est pas fiable. C'est l'une des raisons pour lesquelles Google Traduction n'est pas systématiquement utilisé par les plateformes commerciales qui exigent la précision professionnelle de traducteurs humains.
Google Traduction est basé sur une méthode appelée traduction automatique statistique[4], et plus spécifiquement, sur les recherches de Franz-Josef Och qui a remporté le concours DARPA pour la vitesse de traduction automatique en 2003. Och est maintenant chargé du département de traduction automatique de Google.
Selon Och[5], une base solide pour l'élaboration d'une statistique utilisable consiste à se baser sur un corpus de textes (ou texte parallèle) bilingue de plus d'un million de mots et deux corpus unilingues de plus d'un milliard de mots chacun, les modèles statistiques à partir de ces données servant ensuite à traduire les différentes langues.
Pour acquérir cette quantité considérable de données linguistiques, Google exploite les documents publics de l'Organisation des Nations unies[4]. Le même document est normalement disponible dans les six langues officielles de l'ONU, ce qui permet maintenant à Google hectalingual (cent langues) de disposer d'un corpus de 20 milliards de mots.
La disponibilité de l'arabe et du chinois comme langues officielles de l'ONU est probablement une des raisons pour lesquelles Google Traduction a d'abord concentré ses efforts sur le développement de la traduction entre l'anglais et les autres langues de ce corpus, et pas, par exemple, sur le japonais ou l'allemand, qui ne sont pas des langues officielles de l'ONU[réf. nécessaire].
Les représentants de Google se sont montrés très actifs à des conférences nationales au Japon et ont convaincu certains chercheurs de leur fournir des corpus bilingues. Google s'est avéré être un commanditaire officiel de la Computational Linguistics annuelle à la conférence Gengoshorigakkai au Japon en 2007. Google a également envoyé un délégué à la réunion des membres de la Société de linguistique informatique du Japon en .
Depuis 2016, Google Traduction utilise un réseau de neurones récurrents comme langue intermédiaire pour éviter de passer par l'anglais[6].
Interface
Le , l'interface de Google Traduction a été revue[7], ainsi que fin 2018.
Cette section contient une ou plusieurs listes. Le texte gagnerait à être rédigé sous la forme de paragraphes synthétiques. Les listes peuvent demeurer si elles sont introduites par une partie rédigée et sourcée, de façon à bien resituer les différents éléments (août 2021).
En français « boîte à outils du traducteur Google », ce toolkit permet de traduire au choix[réf. nécessaire] :
↑« Google limite son outil de traduction gratuit au profit de Cloud Translation, payante ou encore gratuite », ActuaLitté, (lire en ligne, consulté le ).
↑20 Minutes avec agence, « VIDEO. Avec Google translate, le smartphone devient un traducteur instantané », 20 minutes, (lire en ligne, consulté le ).
« Google also uses statistical machine translation, which generates translation by using statistical methods based on bilingual text corpora, such as United Nations documents, or the English-French record of the Canadian Parliament. First the system finds patterns within the human-translated bilingual text, and then it builds rules to translate any given text. »
.
↑Discours-programme au Sommet de la traduction automatique 2005