Linguistique informatique

Linguistique informatique
Partie de
Informatique, linguistique mathématique (d)Voir et modifier les données sur Wikidata
Pratiqué par
Linguiste informatique (d)Voir et modifier les données sur Wikidata

La linguistique informatique est un champ interdisciplinaire basé sur une modélisation symbolique (à base de règles) ou statistique du langage naturel établie dans une perspective informatique.

Introduction

Les langues humaines sont des systèmes sémiotiques cohérents dont le sens est négociable, ce qui permet leur évolution.

Le langage est véhiculé par plusieurs modalités sensorielles : le son (la parole), les traces graphiques (l’écriture), les gestes (langue des signes, gestuelle co-verbale). Les humains construisent des chaînes suivant des conventions syntaxiques pour produire du sens : raconter des histoires, enseigner des connaissances, négocier, argumenter. La chaîne parlée ou écrite prend sens du fait de ses composants, de sa structure et de son contexte (le lieu, le temps, les rôles des présents, leur histoire commune). Le langage humain permet d'évoquer des choses en leur absence, de se rappeler notre histoire, de créer des choses imaginaires comme des mythes ou des histoires, ainsi que de réaliser des projets. C’est le seul mode de communication avec lequel il est possible de paraphraser toutes les autres langues, celles des mathématiques, de la logique, de l'informatique, de la musique ou de la danse.

Les humains utilisent le langage parlé depuis des millions d’années et l'écriture depuis environ 5 000 ans. De nombreuses disciplines se consacrent à l'étude du langage : la philosophie du langage, la linguistique, la psycholinguistique, la sociolinguistique, l’anthropologie et l’informatique.

La linguistique informatique est un champ de recherches et de pratiques technologiques qui s'enracine à la fois dans l'informatique et dans la linguistique, tout en faisant parfois appel à d'autres disciplines. La linguistique informatique fait partie intégrante des techniques informatiques et intervient également dans des sous-domaines de l'intelligence artificielle. Avec l'évolution rapide des technologies informatiques, le besoin de s'appuyer sur les techniques linguistiques s'est rapidement fait sentir, pour faciliter la communication homme-machine. Parallèlement, la linguistique a pu profiter de la puissance des ordinateurs pour acquérir une nouvelle dimension et ouvrir la voie à de nouveaux domaines de recherche.

La linguistique informatique regroupe :

  • des travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires ;
  • le développement de logiciels destinés à aider les linguistes dans leurs travaux de recherche, en particulier pour les études de corpus ;
  • le développement de logiciels et de ressources pour utiliser, traiter, organiser, conserver des données linguistiques écrites ou orales[1].

Débuts

Les premiers travaux de recherche sur les langues utilisant les moyens informatiques ont eu lieu dès 1950, dans le cadre de projets de traduction automatique financés par l’armée américaine, sur la base des bons résultats obtenus en utilisant des machines pour le décryptage des messages codés. Cependant, traduire s'est révélé beaucoup plus complexe que de déchiffrer les messages codés. Dans les années 1960, les chercheurs en intelligence artificielle pensaient que la maîtrise des langues par les machines était un objectif à court terme. À cette époque, les informaticiens croyaient connaître les langues parce qu’ils les utilisaient depuis leur enfance. Ils connaissaient de la grammaire les règles de bon usage, qui ne relèvent pas d’une description scientifique de la langue[2], d’où l’idée qu’un bon dictionnaire bilingue et des outils statistiques suffiraient pour obtenir des résultats en traduction automatique. Faute de résultats suffisants, en 1960, les crédits ont été coupés (rapport ALPAC).

Il a fallu repartir sur de nouvelles bases dans les années 1970, en formalisant la grammaire. Le modèle des grammaires formelles a été très productif pour les langages informatiques[3]. Les interprètes ou les compilateurs sont constitués par une chaine de traitements : analyse lexicale, syntaxique, sémantique. Les travaux de Noam Chomsky[4] ont fait l'hypothèse d'une similitude entre les langues naturelles et les langages informatiques. Les propositions de modèles formels de la langue par Zellig Harris[5] puis Chomsky[6] ont orienté la recherche de solutions sur la formalisation de la syntaxe. Les grammaires génératives de Chomsky décrivent des systèmes de règles de production pour engendrer toutes les phrases admissibles. Des automates inverses devraient permettre la reconnaissance des phrases bien construites. Avec cette hypothèse, l'interprétation d'un texte est constituée par une chaîne de traitements analogue à celle qu'effectuent les compilateurs. Le système SHUDLU, présenté dans l'introduction du TAL en est un exemple. Mais les grammaires formelles ont buté sur de nombreuses difficultés pour le langage humain. Parallèlement, les premiers travaux sur le dialogue humain-machine ont commencé dans les années 1960 avec Eliza, qui peut maintenir un dialogue par reconnaissance de mots clés. C'est une première tentative de modèle interactif.

Les modèles basés sur la connaissance ont pris le relais dans les années 1980[7]. Ils incitent à construire une base de connaissances très importante pour compléter les méthodes formelles. Ils supposent que la clé de la compréhension des langues est dans les connaissances partagées. Mais s’il en était ainsi, comment les enfants apprendraient-ils à parler ? Là aussi, les résultats furent beaucoup moins rapides qu’on ne le croyait[8]. C'est aussi dans les années 1980 que l’enregistrement de la parole et le traitement automatique du signal enregistré, ainsi que la synthèse de la parole, ont fait entrer l'oral dans les technologies du langage.

Après des espoirs déçus de maîtrise des langues par les ordinateurs, les informaticiens ont pu prendre la mesure de la difficulté des problèmes. Les méthodes ont beaucoup évolué et combinent méthodes statistiques, formalismes et connaissances. C'était la condition pour la construction de technologies des langues efficaces et utiles, comme celles qui sont montrées sur le blog de Jean Véronis. Les objectifs se sont diversifiés. Depuis quelques années, la dimension gestuelle est prise en compte avec les enregistrements vidéo, les personnages animés et les robots. Le dialogue entre humains à travers les machines invente des formes nouvelles de pratiques sociales : mail, chats, forums, qui transforment le rapport oral/écrit en dehors d'une présence effective des locuteurs.

Champ d'étude

Il y a trois domaines principaux de recherche et d’ingénierie des langues basés sur l'informatique : le traitement de la parole, le traitement automatique des langues écrites ou TAL et le dialogue humain/machine.

  1. La « parole » s’intéresse à l’oral, part du traitement du signal acoustique et cherche à le décoder pour le transformer en écriture. La synthèse de parole est le point de vue complémentaire, qui transforme un texte écrit en son. Deux niveaux sont requis, la phonologie (phonèmes, syllabes) et la prosodie : pauses, accentuations, rythme, changement de ton, montant ou descendant. Les serveurs vocaux par téléphone sont un bon exemple d’application de ces techniques.
  2. Le TAL s’intéresse surtout aux textes écrits, à les analyser, les résumer, les traduire. Les questions essentielles sont :
    • L’annotation des corpus : étiquetage par les parties du discours, analyse morpho-syntaxique ;
    • Le lexique (Trésor de la Langue Française informatisé ou tlfi) ;
    • La traduction et le résumé automatiques ;
    • La recherche d’information sur le Web à partir des documents présents.
  3. Les travaux sur le dialogue, qu’il soit oral ou écrit (chats, forums), s’intéressent à rendre compte de la parole spontanée, à trouver ses règles de fonctionnement, et à inclure les machines dans des processus de dialogue humain. Dans les deux champs que sont la « parole » et le TAL, il s’agit rarement de parole spontanée, mais de textes écrits, relus et corrigés avant d’être disponibles sous forme orale (radio, télévision) ou écrite. Or, le dialogue spontané précède toutes les formes d’usage de la langue, tant dans l’espèce humaine que dans l’histoire de chaque enfant. L’étude du dialogue humain à travers la machine concerne des aspects fondamentaux du langage.

Mais d'autres aspects du langage peuvent être étudiés grâce à l'informatique. Par exemple, l’anthropologie étudie l’apparition et le développement du langage oral et de l’écriture au cours de l’évolution humaine et de sa dispersion dans le monde. Les études sur l’origine du langage ont pris une nouvelle jeunesse avec les simulations informatiques[9].

Modèles théoriques

Les modèles théoriques cherchent à construire une formalisation du fonctionnement de la langue permettant la reproduction par un système artificiel des compétences langagières humaines. On distingue les approches empiriques (basées sur des modèles statistiques construits à partir d'observations), les approches logico-grammaticales (basées sur des modèles logiques ou algébriques, construits à partir d'exemples, qui peuvent être descriptifs ou génératifs) et les approches interactives (basées sur des modèles multi-agents, ou sur l'observation des interactions humaines ou des interactions humains-machines).

Approches empiriques

Les modèles statistiques sont très fréquemment utilisés pour l'étude des langues. Les calculs de fréquences, de moyenne, de dispersion donnent des résultats parfois étonnants. Les modèles de Markov sont les plus utilisés pour l'analyse de la parole comme pour des analyses lexicales et syntaxiques. Les tentatives pour utiliser les réseaux de neurones sont plus rares.

Loi de Zipf

Dans les années 1930, un scientifique de l'université de Harvard, G.K. Zipf, a montré qu'en classant les mots d'un texte par fréquence décroissante, alors, on observe que la fréquence d'utilisation d'un mot est inversement proportionnelle à son rang. La loi de Zipf stipule que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Cette loi peut s'exprimer de la manière suivante : Fréquence d'un mot de rang N = (Fréquence du mot de rang 1) / N Si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant : ce que traduit la formule f * r = C, où f est la fréquence et r le rang. Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation n'est pas isolée, mais n'est que la première de toute une série d'autres que l'on peut résumer ainsi :

  • La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50/100 de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5/100 du lexique total.
  • La fréquence des mots d'une langue dans le discours est liée à leur structure phonique ; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son « coût de production » est élevé). Cela apparaît bien dans le phénomène général d'abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours : tronquements ("cinématographe" devient « cinéma » et « ciné »), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution ("contremaître" devient « singe », etc.).

En traçant pour chaque mot le couple rang/effectif dans un repère logarithmique, alors le nuage de points paraît linéaire. Il est d'ailleurs possible de calculer l'équation de la droite de régression linéaire sur ce nuage. La répartition des points autour de cette droite montre que la linéarité n'est qu'approximative. En étudiant la liste des fréquences, on peut noter que les mots les plus fréquents sont les mots grammaticaux, et que leur ordre d'apparition dans la liste est stable d'un texte à l'autre à partir du moment où le texte est de longueur significative (c’est une loi tendancielle). Les mots lexicaux apparaissent ensuite, en commençant par les mots thématisant le document.

Modèles de Markov cachés

Une phrase ou un texte peut être vu comme une séquence de mots. Supposons qu’on ait un vocabulaire exhaustif où les mots sont numérotés de 1 à M et ajoutons un mot no 0 noté # comme séparateur. Le petit chat est mort. va être récrit w0 w42 w817 w67 w76 w543 w0 (par exemple) en remplaçant chaque mot par son entrée dans le vocabulaire. Appelons W1 le fait d’observer le premier mot et en général Wi le fait d’observer le ième mot.

P (# le petit chat est mort #) = P (W0=0, W1=42, W2=817…)

Un modèle de Markov cherche à prédire l’apparition d’un mot en fonction du mot qui le précède (modèle bigramme) ou des deux mots qui le précèdent (modèle trigramme). Le modèle bigramme suppose que le modèle de Markov sous-jacent au langage est stationnaire. Un modèle de Markov est dit stationnaire si l’observation de l’état actuel permet de prédire les états suivants. Il y a un lien direct entre l'état où se trouve le processus et les probabilités des états suivants. La reconnaissance automatique de la parole fait un grand usage des modèles de Markov pour aider la reconnaissance des mots dans un signal de parole continu. Pour apprendre les probabilités conditionnelles des bigrammes ou de trigrammes, il faut une grande quantité de corpus annoté. Le même principe peut être utilisé pour d’autres tâches, comme l'étiquetage (attribution des parties du discours aux mots). Dans ce cas, on observe les mots, pas leur étiquette, et on parle de modèle de Markov caché. L'étiqueteur de Brill (en) est basé sur ce principe. Il s’agit d’attribuer des tags aux mots de façon à maximiser la probabilité de bonne réponse sur l’ensemble des tags.

Réseaux de neurones

Les réseaux de neurones formels ont été utilisés pour modéliser la sémantique des langues et permettre la construction dynamique du sens des phrases[10].

Approches logico-grammaticales

Les traités de Noam Chomsky sur la syntaxe des langues naturelles furent une source d'inspiration pour traiter les phrases comme des expressions d'un langage formel. Mais alors que le modèle de Chomsky est génératif, les modèles de grammaires formelles doivent comporter les deux volets de l'analyse et de la génération.

Mais la compétence linguistique est peu de chose pour un système ne sachant pas de quoi on lui parle. En 1972, SHRDLU de Terry Winograd, s'appuie sur une modélisation d'un micro-monde parfaitement circonscrit (quelques cubes et pyramides de couleurs diverses, entassés sur une table) en vue de réaliser une conversation à propos des situations concrètes que l'on peut rencontrer dans cet univers restreint. Munis de deux clés : grammaire formelle pour la morpho-syntaxe et réseaux d'associations sémantiques pour le sens, les expérimentateurs du milieu et de la fin des années 1960 réalisèrent une foule de systèmes. Pour passer du dialogue dans un micro-monde au monde humain, la grande question des années 1970 fut celle de la représentation des connaissances. En 1974, dans un recueil sur la vision artificielle, Marvin Minsky, un des fondateurs de l'IA, exposa la notion de stéréotypes (en anglais : frames). Un stéréotype est une description des caractéristiques d'un élément du monde associé aux mots correspondants. les stéréotypes fonctionnent en réseaux, appelés réseaux sémantiques. Les liens de ce réseau sont les relations généralisation spécialisation et les relations tout parties. Mais il ne suffit pas de décrire le monde pour comprendre les histoires, Roger Schank pose la question des comportements en termes de scénarios prédéfinis.

Le cours de Jean Véronis répertorie les modèles morpho-syntaxiques et sémantiques courants. Pour aller plus loin, un bilan a été fait en 1991 montrant les forces et les faiblesses de cette approche[11].

Approches interactives

Le dialogue est la matrice de nos langues, de notre pensée, de notre mémoire et du dialogue lui-même. Il est la matrice de nos institutions et de nos sociétés. Il nous constitue en tant qu’humains. Le dialogue est un état premier de l'activité langagière, si on le compare à l'écrit bien sûr, mais aussi à d'autres formes de langage oral, comme raconter une histoire ou faire un discours. Le petit enfant apprend à parler par la parole et le dialogue[12]. Les approches interactives de la modélisation du langage ont été développées pour le dialogue entre les humains et les machines[13], pour le dialogue entre agents logiciels[14] ou pour améliorer les interfaces graphiques[15].

Interactions humaines, interactions humain-machine

Entre humains, l’interaction passe principalement par l’action conjointe (jouer au foot), les mouvements, les gestes, les expressions du corps et du visage, la voix (cris, parole) et secondairement par l’écriture. Elle s’inscrit dans un monde partagé et construit un monde social. Elle met en jeu des objets intermédiaires comme ressources, comme enjeux ou comme manifestation d’un accord. Dans les dialogues, chaque participant prend tour à tour les rôles de locuteur, d’interlocuteur ou d’observateur. L’interaction entre humains est donc symétrique du point de vue des modalités comme du point de vue des rôles.

L’interaction des usagers avec les ordinateurs est seulement une interaction par signes. Elle n’est pas symétrique ni du point de vue des modalités, ni du point de vue des rôles. La plupart du temps, la machine présente des pages sur un écran comportant des textes et des images et envoie des messages auditifs (mode visuel et auditif). L’usager agit principalement par l’écriture (mode textuel) et avec la souris (mode gestuel). Cette interaction ne met en jeu que le monde de l’ordinateur, son monde interne et les flux arrivant par ses capteurs, pas celui de son interlocuteur. Pour toutes les applications informatiques simples, où l’ensemble des ordres à donner à la machine est facile à énumérer et à mémoriser, les interfaces à boutons ou à menus déroulants, qui restent dans le paradigme compositionnel et exhaustif sont certainement supérieures au dialogue en langue naturelle. Mais les limites à leurs usages, les appréhensions et difficultés des usagers, tiennent souvent aux difficultés de l’interaction. On peut par exemple observer les difficultés des usagers à comprendre les messages d’erreur, ou à utiliser des formules logiques d’interrogation de bases de données documentaires.

C’est à suite de tentatives infructueuses pour formaliser les langues, comme on l’avait fait efficacement pour les langages de programmation dans les années 1960, qu’un autre point de vue a pu être développé, le point de vue de l'interaction comme source et enjeu de la constitution des langues. Les humains peuvent interagir entre eux par des signes selon plusieurs modes. Ils peuvent par exemple communiquer par des signaux routiers ou de navigation dont le sens n’est pas négociable. Ils peuvent aussi utiliser des codes, analysables terme à terme de manière compositionnelle, comme les notations mathématiques et les langages de programmation. Ces codes ont une sémantique compositionnelle et non ambiguë qui fixe le sens des messages indépendamment du contexte dans lequel il a lieu. Un code nécessite un accord préalable entre les parties sur le sens des éléments et le sens de leurs combinaisons. Les humains utilisent principalement pour communiquer les langues naturelles qui ne fonctionnent pas selon le modèle du code mais selon le modèle du transfert[16]. Les langues sont un préalable pour créer les systèmes de signaux, de formules et de codes et pour les faire évoluer.

Sémantique interprétative

La sémantique interprétative de François Rastier[17] décrit comment le sens est construit de manière rhétorique et herméneutique, c'est-à-dire dans un processus d'interprétation dans le contexte et dans l'histoire des interactions. Elle s'attache à décrire les textes (ou les dialogues) dans leur entier. Elle sert de base pour des études et projets informatiques[18].

Pertinence

Jean-Louis Dessalles propose un modèle de la pertinence et de ses origines cognitives qui éclaire le fonctionnement du langage dans l'interaction[19]. L'inattendu, les coïncidences, la banalisation sont les principaux ressorts des conversations.

Aides aux linguistes

La linguistique a d’abord été descriptive, et elle a décrit l’évolution des langues, leurs racines communes. La linguistique peut être prescriptive, établir des normes pour une langue déterminée. On l’appelle alors la grammaire. Elle fixe les normes pour l’enseignement des langues et des conventions pour l’imprimerie. La linguistique peut être théorique, proposer des théories du langage, de la production ou de l’interprétation des langues : Saussure (système de signes, linguistique structurale), Chomsky (système de règles, linguistique générative), Langaker (grammaire cognitive).

On distingue plusieurs champs d'étude dans les théories linguistiques :

  • la phonétique et la phonologie (parole) ;
  • la morphologie et la syntaxe (structure des mots et des phrases) ;
  • la sémantique (sens, dictionnaires, résumés) ;
  • le discours (textes, dialogues).

L’informatique peut aider les linguistes pour :

  • chercher des exemples et des contre-exemples dans de grands corpus ;
  • faire des statistiques sur les emplois des termes, des constructions syntaxiques, les rimes… ;
  • calculer des cooccurrences de termes.

La linguistique de corpus résulte de cet apport technique de l’informatique aux études linguistiques.

Un autre point de vue des rapports en linguistique et informatique est de faire des modèles calculatoires des théories linguistiques et éprouver ces modèles en les implantant sur une machine. Par exemple, la syntaxe de Lucien Tesnière utilisée par Jacques Vergne[20] pour construire un analyseur syntaxique sans dictionnaire.

Linguistique de corpus

Les corpus sont à la fois la matière première de l’étude des langues et des textes et le moyen de tester les modèles qui sont proposés. L'informatique permet l’utilisation de grands corpus de textes pour l’étude des langues. Elle facilite leur recueil, leur constitution, leur annotation. La diffusion des corpus présente des problèmes scientifiques, techniques et juridiques :

  • Droits des auteurs, des éditeurs, des traducteurs, des annotateurs ;
  • Protection de la personne et de son image dans le cas des corpus oraux.

Qu’est-ce qu’un corpus ?

Un corpus est une grande quantité de matériaux linguistiques attesté : livres, journaux, devoirs d’étudiants, enregistrements de radio, de télévision, de réunions de famille, de discussions de café… Les corpus numérisés sont les plus utiles pour les linguistes, les littéraires, comme pour les chercheurs en TAL. Les sources de corpus écrits sont nombreuses, tant par le Web que du fait que l'édition est numérisée depuis les années 1980.

Pour certaines tâches, un corpus doit être représentatif : représentatif d’un état de langue dans un pays, un milieu social, à une époque déterminée. Il faut donc prélever soigneusement des échantillons dans ce but et ces choix doivent être documentés (exemple Frantext pour le TLFI). Les corpus « patrimoniaux » sont recueillis pour servir de base à des comparaisons ultérieures sur les états de langues, ou pour conserver des témoignages sur les langues en voie de disparition. Pour réaliser un système automatique de réservation de billets de train, il faut enregistrer des dialogues aux guichets de la SNCF, dans des lieux variés, avec de nombreux interlocuteurs. Les autres dialogues apporteront peu d’informations, la radio encore moins.

Un corpus respecte le contexte de l’énonciation et du recueil des textes. Il comporte donc des métadonnées : auteur, date, édition… Il est organisé en vue d’une exploitation scientifique ou technique. La question des formats est incontournable : codage de caractères, jeu de caractères, mise en forme matérielle, format du fichier (HTML, Word, PDF…). Si un corpus est annoté, chaque élément du corpus est décrit par des annotations et le jeu d’annotations doit être le même pour tous les éléments du corpus. Un corpus peut être monolingue ou multilingue. Une catégorie particulière de corpus concerne les textes traduits dans plusieurs langues, alignés par le sens, comme les textes de la communauté européenne. Ils sont très utilisés en traduction automatique.

Histoire des corpus

L’idée d’utiliser des corpus pour la recherche linguistique précède l’informatique. Zellig Harris a posé les bases de recherches distributionnelles sur la syntaxe qu’il n’a pas pu réaliser. Sous leur forme numérique, les corpus ont commencé à être constitués vers 1950, mais c’est seulement dans les années 1980 que les machines ont été suffisamment disponibles pour que de grands corpus soient constitués. Ils ont été d’abord constitués sur l’anglais aux États-Unis (Brown Corpus 1979 Francis) et en Angleterre (British National Corpus, Bank of English). Dans les années 1990, on commence à trouver des corpus oraux et des corpus multilingues. Les corpus écrits sont en général disponibles pour la recherche scientifique. Par contre, il y a peu de corpus oraux disponibles, très peu en français, pour des raisons juridiques et pour des raisons de propriété industrielle.

Annotation de corpus

Un corpus annoté est un corpus accompagné d’informations complémentaires aux métadonnées qui le décrivent. Les annotations peuvent être manuelles ou automatiques. Elles évitent de refaire plusieurs fois le même travail et ouvrent des possibilités de recherche automatique sur les éléments annotés. Les principales annotations sont des annotations lexicales, morphologiques ou syntaxiques. Elles se réfèrent à des dictionnaires ou à des théories grammaticales (parties du discours, fonctions sujet, verbe, complément…). Elles peuvent être systématiques ou partielles, pour les besoins d’un travail particulier (signaler les adverbes par exemple, ou les verbes au futur…). Elles posent la question de l’objectivité de ces annotations, les linguistiques pouvant discuter longtemps de certains choix sans se mettre d'accord. Elles sont donc des interprétations du corpus et les conditions de cette interprétation doivent être clairement décrites dans les métadonnées afin de rendre publics et explicites les principes sur lesquels l'annotation a été faite. Les annotations manuelles sur de grands corpus sont faites par des équipes de linguistes et la consistance entre leurs annotations est difficile à obtenir. Toutefois, des expériences faites avec des linguistes bien entraînés et bien coordonnés n’ont pas montré de véritable problème de consistance pour l’anglais, le français et l’espagnol. Les annotations automatiques sont obtenues en construisant un modèle à partir d'annotations manuelles d'une partie du corpus. Elles ne sont pas parfaites (3 % d’erreurs pour l'annotation des parties du discours) mais elles rendent de grands services si ce taux d’erreur est acceptable. Elles peuvent être reprises manuellement par des experts, ce qui est moins lourd qu’une première annotation.

Actuellement, l’annotation de corpus se diversifie. On trouve des corpus annotés sémantiquement (recherche des entités nommées). Il existe aussi des annotations d’analyse du discours, de pragmatique et de stylistique. Les annotations stylistiques servent en particulier dans les langues anciennes pour attribuer des auteurs aux œuvres anonymes, ou pour étudier les influences des auteurs les uns sur les autres. Une normalisation de ses annotations est proposée par la TEI (Text Encoding Initiative).

Exploitation des corpus en TAL

L’utilisation de corpus annotés permet d’évaluation des nouveaux systèmes, qui peuvent se comparer sur des corpus attestés et dont les annotations sont validées. Elle permet de travailler sur d’autres niveaux d’analyse du langage en disposant de ressources ou les analyses de bas niveau sont déjà réalisées et donc d’expérimenter des analyses pragmatiques ou rhétoriques sans réaliser les analyseurs syntaxiques qui sont un préalable à l’analyse de haut niveau.

Technologie des langues

La linguistique informatique prend place dans l’histoire de l'instrumentation du langage. Les technologies des langues commencent avec l’écriture, il y a environ 5 000 ans. Elles se poursuivent avec la constitution de dictionnaires et de grammaires. Puis l’imprimerie est née en Chine au XIVe siècle et est attribuée en Europe à l'Allemand Gutenberg en 1440. Elle a permis la diffusion des textes et des dictionnaires au XVIIe siècle. La machine à écrire est inventée en 1868. L’informatique reprend, transforme et développe toutes ces technologies : elle se sert de la machine à écrire, elle met les techniques de l’imprimerie à la disposition de tous, et propose des dictionnaires en ligne. Elle ouvre de nouveaux champs d'application de l’instrumentation informatique du langage humain.

Les informaticiens cherchent à instrumenter les divers aspects du langage : reconnaissance et synthèse de la parole, génération de la parole, dialogue humain-machine, traitement des textes (analyse morphologique et syntaxique, études sémantiques et stylistiques, résumés). En retour, l’informatique a besoin du langage pour son propre compte, par exemple dans les interfaces humain-machine, dans les systèmes d’aide, pour la recherche d’information dans des bases de données de documents textuels.

Technologies de l'écrit

Citons :

Les moteurs de recherche sur le Web considèrent les textes comme des sacs de mots. Les analyses ne dépendent pas de la place des mots, seulement du nombre d’occurrences d’un mot dans un texte. Les fonctions de modification d'un texte dans les traitements de texte, comme « rechercher » et « remplacer » considèrent le texte comme une chaîne de caractères. Les blancs, les caractères alphabétiques ou numériques, les signes de ponctuation et les signes de mise en forme sont considérés de la même manière que les caractères alphabétiques. Elles utilisent des expressions régulières[21]. Les correcteurs orthographiques comparent les mots du texte à tous les mots d'un dictionnaire de formes fléchies, c'est-à-dire où il y a le singulier, le pluriel, le masculin et le féminin pour les noms et les adjectifs et toutes les formes conjuguées des verbes. Ils pointent les formes qui n'existent pas, mais pas celles qui sont utilisées à tort. Pour la traduction automatique ou pour résumer des textes, le texte est considéré comme la manifestation d’une langue, et il faut tenir compte de connaissances linguistiques pour l’analyser, car un texte lu à l’envers n’est plus un texte, juste une chaîne de caractères.

Technologies de l'oral

  • La transcription de la parole

Transcrire manuellement la parole pour obtenir une forme écrite équivalente est un travail très difficile.

Le Transcriber[22] est un outil pour segmenter, étiqueter et transcrire la parole. Il est utilisé en linguistique de corpus et pour aider à l'acquisition des données pour la reconnaissance et la synthèse de la parole.

La reconnaissance de la parole prend en entrée un flux de signal de parole et produit un texte écrit en sortie. Elle utilise des modèles de Markov cachés. Ce qui fait la différence entre les différents systèmes, c’est :

  1. le découpage des unités dans le flux de parole ;
  2. la taille du corpus d’apprentissage et la manière dont on fait l’apprentissage pour obtenir le modèle linguistique qui donne la probabilité d'une phrase ;
  3. la prise ne compte des bigrammes, trigrammes, ou plus de ces unités pour la prédiction de l'élément textuel à produire en fonction de l'unité courante et du modèle.

Les logiciels de dictée vocale ont de bons résultats lorsque les tâches sont répétitives, comme la dictée de lettres administratives ou les comptes rendus médicaux.

La synthèse de parole est le point de vue inverse de la reconnaissance. Elle transforme un texte écrit en flux de parole. Deux niveaux de production sont requis, la phonologie (phonèmes, syllabes) et la prosodie : pauses, accentuations, rythme, changement de ton, montant ou descendant. Les serveurs vocaux par téléphone sont un bon exemple d’application de ces techniques.

Applications

Avec les développements récents dans les domaines de l'internet, de grandes masses de données ont ouvert de larges portes à d'innombrables applications de la linguistique informatique qui connaît une nouvelle montée en puissance.

  • La traduction automatique : ce problème longtemps sous-estimé s'est en fait avéré l'un des plus délicats à effectuer pour un ordinateur. Aux phases lexicales et syntaxiques, à peu près maîtrisées, s'ajoutent une analyse sémantique, puis pragmatique, qui tentent de déterminer le sens particulier d'un mot, dans le contexte où il apparaît. Le contexte lui-même pouvant s'étendre à l'ensemble du texte traduit.
  • Le résumé : résumer un texte signifie identifier le contexte et pondérer les parties significatives des autres. (Peu de recherches connues).
  • La reformulation : permet de parer une accusation de plagiat. (Aucune recherche connue).
  • L'analyse de requêtes en langage naturel : cette idée fut considérée un moment comme une solution satisfaisante au problème de communication entre l'humain et la machine. Quoi de mieux en effet pour un non-spécialiste que de pouvoir adresser ses commandes et ses questions à l'ordinateur, dans son propre langage ? L'arrivée des interfaces graphiques, de la souris et de la métaphore du bureau ont quelque peu éclipsé cette technique. Elle réapparaît sous d'autres formes, notamment comme composant nécessaire de l'analyse et de la reconnaissance vocale ou encore de la reconnaissance d'écriture, popularisée par certains assistants personnels (PDA).
  • Les correcteurs de grammaires et d'orthographe : ces modules se basent à la fois sur des modèles statiques du langage que sur des modèles linguistiques (voir [23])
  • L'extraction des informations : avec la disponibilité croissante de textes aux formats numériques notamment sur internet, le besoin d'extractions et d'organisation de l'information à partir de ces ressources s'agrandit graduellement. La linguistique informatique joue un rôle important dans ce procédé, notamment dans l'identification des entités nommées (noms propres adresses, etc.), analyse et classification des sentiments et des opinons, etc.

Références

  1. Le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue. (lire en ligne)
  2. Sylvain Auroux, 1998 La Raison, le langage et les normes, Paris, Presses universitaires de France.
  3. Maurice Gross et André Lentin, Notions sur les grammaires formelles, Gauthier-Villars, 1967.
  4. Noam Chomsky, La Linguistique cartésienne suivi de La Nature formelle du langage, Éditions du Seuil, 1969, (ISBN 2-02-002732-1).
  5. Zellig Harris, Notes du Cours de Syntaxe, Éditions du Seuil, 1976.
  6. Noam Chomsky, Structures syntaxiques, Éditions du Seuil, 1979, (ISBN 2020050730).
  7. Gérard Sabah, L'intelligence artificielle et le langage, Représentations des connaissances, Processus de compréhension, Hermès, 1989.
  8. Gérard Sabah, « La langue et la communication homme-machine, état et avenir » dans : Jean Vivier (éd.), Le dialogue homme/machine: mythe ou réalité, Europia Productions, 1995.
  9. Jean-Louis Dessalles, Aux origines du langage - Une histoire naturelle de la parole, Hermès, 2000.
  10. B. Victorri, C. Fuchs C, La polysémie, construction dynamique du sens, Paris, Hermès, 1996.
  11. René Carré, Jean-François Dégremont, Maurice Gross, Jean-Marie Pierrel et Gérard Sabah, Langage humain et machine, 1991, éditions du CNRS.
  12. B. Cyrulnik, La Naissance du sens, Hachette, 1995.
  13. Machine, langage et dialogue, L’Harmattan, Paris, 1997.
  14. Kaplan F., La naissance d’une langue chez les robots, Hermès Science Publications, 2001.
  15. M. Beaudouin-Lafon, « Designing Interaction, not Interfaces », Proceedings of the working conference on Advanced visual interfaces, May 25-28, 2004.
  16. J. Coursil, La fonction muette du langage, Ibis Rouge Éditions, Presses Universitaires Créoles, Guadeloupe 2000.
  17. François Rastier, Sémantique interprétative, PUF, 1987, 3e éd. 2009, (ISBN 978-2130574958).
  18. M. Valette ed., Textes, documents numériques, corpus. Pour une sciences des textes instrumentée. Syntaxe et Sémantique no 9/2008, Presses Universitaires de Caen.
  19. Jean-Louis Dessalles, La pertinence et ses origines cognitives, Hermès Sciences, 2008.
  20. Jacques Vergne, « Analyse syntaxique automatique de langues : du combinatoire au calculatoire » (communication invitée), Actes de TALN 2001, p. 15-29.
  21. M. Crochemore, C. Hancart et, T. Lecroq, Algorithmique du texte, Vuibert, 2001, 347 pages. (ISBN 2-7117-8628-5).
  22. Transcriber
  23. Mohamed Zakaria Kurdi, Traitement automatique des langues et linguistique informatique - Tome 1, « Parole, morphologie et syntaxe », Londres, ISTE, 2017.

Voir aussi

Bibliographie

  • François Rastier, Marc Cavazza et Anne Abeillé, Sémantique pour l'analyse : De la linguistique à l'informatique, Paris, Masson, coll. « Sciences cognitives », , 240 p. (ISBN 2-225-84537-9)
  • Ingénierie des Langues, sous la direction de Jean-Marie Pierrel, Collection « Information - Commande - Communication », Éditions Hermès Science, 360 p. (ISBN 2-7462-0113-5),
  • (en) The Oxford Handbook of Computational Linguistics, edited by Ruslan Mitkov, Oxford University Press, (ISBN 0-19-823882-7), 2003

Articles connexes

Liens externes

Liens externes pédagogiques