Génération automatique de texte

La génération automatique de texte (GAT)[1] est une sous discipline de la linguistique computationnelle qui vise à exprimer sous une forme textuelle, syntaxiquement et sémantiquement correcte[2], une représentation formelle d'un contenu.

Outre ses nombreuses applications existantes ou potentielles - par exemple pour produire automatiquement des bulletins météorologiques, ou des rapports automatisés - elle offre par ailleurs un cadre d'investigation des théories linguistiques, et particulièrement de ses mécanismes de production.

Historique

Travaux de Shannon et Turing

Historiquement, les deux premiers chercheurs à s'être penchés sur la question de la production de texte par des systèmes d'information sont Claude Shannon, suivi de Alan Turing.

Alan Turing réfléchit de manière générale à cette possibilité dans le cadre de sa proposition du test d’IA intitulé Le jeu de l’imitation. Ce test, que Turing décrit en 1950 dans son article prospectif sur le rapport existant entre intelligence et mécanique informatique[3], consiste à faire dialoguer un humain avec un ordinateur et ce même humain avec un autre humain. Selon Turing, si l’homme qui engage les deux conversations n’est pas capable de différencier un locuteur humain d’un ordinateur, il est permis de considérer que le logiciel a passé avec succès le test. Ce test, comme on le voit aujourd'hui à l'occasion du Prix Loebner, consiste en grande partie à générer des phrases syntaxiquement et sémantiquement correctes.

Claude Shannon, dans son article sur la « Théorie mathématique de la communication », fondement de la Théorie de l'information, dès 1948[4], imagine la possibilité de générer automatiquement du texte en utilisant des probabilités markoviennes de transition d'un mot à un autre. Il construit le premier modèle théorique de générateur de texte. Aidé d'une table de transition calculée à la main, il élabore diverses phrases qui ressemblent à l'anglais. L'un des exemples donné par Shannon, d'ordre deux, c'est-à-dire reposant sur la probabilité de transition pour deux mots consécutifs, est le suivant :

« THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED ».

Shannon ne poursuivra pas ses recherches en matière de génération, son objectif principal est de formaliser mathématiquement la transmission d'information, mais la méthode qu'il décrit est aujourd'hui au cœur de nombreuses méthodes appliquées au traitement automatique du langage, par exemple dans les (en) modèles de langage probabilistes. Les modèles de langage sont également impliqués dans certaines architectures de générateurs de texte dits statistiques.

Mais les premiers systèmes appliqués de GAT datent des années 1960. Ils ont été mis au point pour expérimenter dans un cadre théorique la théorie présentée par Chomsky dans Structures Syntaxiques.

Les systèmes inspirés de la linguistique Chomskyenne

Victor Yngve (en) en 1961[5], très peu de temps après la parution de Structures Syntaxiques cherche avec les systèmes rudimentaires de l'époque à expérimenter la production de phrases d'après les propositions de Chomsky. Il décrit l'algorithme de son système, presque entièrement basé sur des grammaires génératives, dans son article intitulé Random Generation of English Sentences. Yngve se heurte aux phénomènes de complexité linguistique qui perturbent la recherche sur la mécanisation du langage depuis la fin des années 1940. Il indique d'ailleurs dans son article « que les grammaires transformationnelles originelles ont été abandonnées car elles ne peuvent pas être mécanisées avec un appareil fini, en raison de la difficulté d’associer une structure de phrase au résultat d’une transformation ».

D'autres travaux tels ceux de Matthews[6] en 1962 ou de Friedman[7] en 1969 sont similaires à ceux de Yngve. Très marqué par les besoins de l'époque et les orientations des financements universitaires en Amérique du Nord, ils s’inscrivent dans la perspective d’insérer le générateur de texte en tant qu'élément d'un système de traduction automatique. Souvent, ces travaux ne cherchent pas réellement à produire un texte sémantiquement correct mais se focalisent plus sur la capacité des systèmes à produire des phrases syntaxiquement correctes. Comme le système de Friedman, écrit en Fortran et fonctionnant sur IBM 360/67, qui génère des structures syntaxiques de manière aléatoire.

Principes

Applications

Cadre théorique

Approche symbolique

Les formalismes théoriques dérivant des méthodes symboliques sont principalement les suivants[2],[8] :

  • SFG (en) (systemic-functional grammars), grammaires systémiques-fonctionnelles. Utilisées pour l'accent qu'elles mettent sur l'aspect « fonctionnel », notamment via l'utilisation de « traits fonctionnels ». Exemples de systèmes : FUF[9] qui utilise le principe d’« unification » des traits ; KPML[10], système multilingue héritier de PENMAN.
  • TAG (tree-adjoining grammars), grammaires d'arbres adjoints. Utilisées pour effectuer de la génération incrémentale.
  • MTM (meaning-text model), modèle sens-texte d'Igor Mel'čuk.

Approche statistique

Autres approches

Architecture

La GAT s'oppose à la compréhension du langage naturel puisque cette dernière part du texte pour en saisir le sens alors que le but de la GAT est de transformer du sens en texte. Ceci se traduit par une plus grande variété d’inputs différents, en fonction du domaine d'application (alors que du texte restera toujours du texte). De plus, contrairement à la compréhension, la génération n'a pas à se soucier (ou dans une moindre mesure) de l'ambiguïté, de la sous-spécification ou d'un input mal formé, qui sont les principales préoccupations en compréhension[11].

Le problème majeur de la GAT est le choix. Cet embarras du choix se pose à plusieurs niveaux[12] :

  • contenu : quoi dire ?
  • choix lexicaux (en) et syntaxiques : comment le dire ?
  • choix rhétoriques : quand dire quoi ?
  • présentation textuelle (ou orale) : le dire !

Ces choix sont loin d'aller de soi. Prenons les deux phrases suivantes[13] :

  1. You can only stay until 4.
  2. You have to leave by 4.

Qu'on peut traduire approximativement par Vous ne pouvez rester que jusque 16 heures et Vous devez être parti pour 16 heures. Ces deux phrases partagent une synonymie sémantique évidente, mais elles diffèrent par une nuance communicative. La phrase (1) met l'accent sur stay, (2) sur leave. Le choix lexical se fera en fonction du contexte : dans ce cas-ci, par exemple, si l'on souhaite porter l'attention sur l'activité en cours ou plutôt sur l'activité à venir.

Par conséquent, la GAT implique un grand nombre[14] de connaissances préalables[15] :

  • connaissance du domaine couvert ;
  • connaissance du langage spécifique de ce domaine ;
  • connaissance rhétorique stratégique ;
  • connaissance de l'ingénierie ;
  • connaissance des habitudes et contraintes de l'utilisateur final.
Exemple d'architecture pour un système de génération (traduit de Vander Linden, 2000).

La formulation optimale devra tenir compte d'une série de facteurs, tels que la grammaticalité, l'absence d'ambiguïté, la cohérence, l'effet rhétorique souhaité. Mais également des contraintes sociales, discursives et pragmatiques. Les théories fonctionnelles du langage sont très utilisées en génération, car elles tentent d'intégrer ce type de facteurs[2].

La figure ci-contre présente un exemple d'architecture pour la GAT. Les deux composants principaux de cette architecture sont le Planificateur de discours (Discourse Planner) et le Réalisateur de surface (Surface Realizer). Le Planificateur sélectionne le contenu dans la base de connaissance et le structure en fonction de l'objectif communicatif. Ensuite, le Réalisateur de surface génère les phrases, selon les contraintes lexicales et syntaxiques qui lui sont implémentées, en suivant le plan spécifié par le Planificateur[11].

Générateur automatique de phrases

Un générateur automatique de phrases (parfois nommé « pipotron ») est un programme qui crée des phrases à partir d'un corpus bien défini.

Ce programme est destiné au divertissement, en créant un texte pouvant passer pour authentique, mais qui sonne souvent faux ou drôle. Quelqu'un qui utilise une telle matrice sera étonné de la cohérence du propos pourtant composé de toutes pièces par assemblage au hasard de morceaux de phrases.

En réalité, un générateur de phrases ne donne que l'illusion de créer du sens. Une analyse des isotopies du texte créé montre qu'il n'a en fait quasiment aucun sens, et que le locuteur (le générateur de phrase) génère aléatoirement un texte sur un thème donné sans jamais entrer dans le vif du sujet, par supercherie, à la manière d'un locuteur qui parle la « langue de bois ».

Technique

Comment se passe la production des phrases ? Il suffit de demander au programme de faire des phrases sur un thème (linguistique) précis. Le programme sélectionne le champ lexical correspondant à ce thème, puis il assemble au hasard les termes du champ lexical de façon à former des phrases.

  • Le champ lexical en question doit être assez vaste pour que les mêmes termes ne reviennent pas trop souvent, de façon à donner l'illusion d'une variété dans le propos.
  • Chaque terme du champ lexical, placé au hasard dans la phrase produite doit pouvoir faire partie de toute autre phrase produite sans qu'il y ait d'incohérence grammaticale. Certains termes sont donc exclus de la base de données lexicale, car ils sont, dans les phrases naturelles, placés dans un endroit précis de la phrase. On peut cependant conserver ces termes dans la base lexicale en obligeant le générateur à les placer dans une phrase ou dans un texte à l'endroit où ils sont d'habitude : le terme premièrement, par exemple, sera placé quelques phrases avant le terme deuxièmement. Le texte produit gagne ainsi en complexité donc en vraisemblance.
  • La base lexicale ne doit pas comporter trop de termes, sous peine d'un plus grand risque d'incongruité.
  • Les thèmes abordés par le générateur automatiques de phrases doivent être des thèmes où l'on croise ordinairement des termes techniques et inhabituels : par exemple, la philosophie kantienne ou la théorie de la superfluidité.

De cette façon, d'une part, les termes inconnus par le lecteur renforcent l'impression d'un discours réfléchi donc naturel, et d'autre part ils peuvent plus facilement faire partie d'un champ lexical plus serré donc présentant moins de risque d'incongruité.

Un générateur automatique de phrase est parfois très étonnant et peut servir de test ludique pour savoir si un professionnel d'un domaine précis (par exemple la philosophie) peut détecter ou non la supercherie. Mais surtout, il est un objet de réflexion pour l'étude de la sémantique et des langages artificiels.

Exemples

Un exemple de phrase produite n'ayant aucun sens mais qui, pour le non-spécialiste, peut passer pour vraisemblable :

« L'organisation rousseauiste de la continuité découle d'une représentation universelle de l'objectivisme. Le paradoxe de l'antipodisme rationnel illustre, par là même, l'idée selon laquelle l'objectivisme n'est ni plus ni moins qu'une immutabilité morale. Il est alors évident que Kierkegaard interprète l'analyse synthétique de la continuité. »

On remarquera l'outil « par là même », servant à relier d'une manière faussement savante deux idées sans aucun rapport l'une avec l'autre. Mais le lecteur essaie de construire un rapport, comme il en a l'habitude ; tous les mots de la philosophie ayant au moins entre eux un point commun, qui est d'appartenir au champ de la philosophie, le lecteur croit comprendre au moins une chose, c'est qu'il s'agit, dans ce texte, de philosophie, ou du moins de sciences humaines. Cela peut parfois suffire à la vraisemblance du propos, surtout si un contexte ou un cotexte bien choisi vient la renforcer, tel un discours censé être officiel.
Exemple simple de productions de phrases aléatoires
Sujet Verbe Complément d'objet direct
Mon voisin mange de la choucroute
Le président annonce des réformes
L'hirondelle ne fait pas le printemps
ce qui donne :
« Le président ne fait pas de la choucroute »

Jusqu'où peut-on aller sur cette voie ?

À partir du même principe de construction et d'assemblage, mais en y ajoutant quelques règles d'accord et de conjugaison, on peut rapidement augmenter la combinatoire des phrases possibles, notamment si le « dictionnaire » est lui aussi étendu assez loin.

Dans la fiction

Notes et références

  1. En anglais « Natural language generation » ou NLG.
  2. a b et c Bateman & Zock (2003).
  3. (en) Alan Turing, « Computing machinery and intelligenc », Mind,‎ .
  4. (en) Claude Shannon, « A Mathematical Theory of Communication », ACM SIGMOBILE, Mobile Computing and Communications Review, vol. 5, no 1,‎
  5. (en) Victor Yngve (en), « Random generation of English sentences », Proceedings of International Congress on Machine Translation and Applied Language Analysis,‎ .
  6. (en) G. Matthew, « Analysis by synthesis of sentences of natural languages. », Proceedings International Congress on Machine Translation and Applied Language Analysis,‎ .
  7. (en) Joyce Friedman, « Direct Random Generation of English Sentence. », Communications of the ACM,‎ .
  8. Pour un large aperçu de l'état de l'art, voir Bateman (2002).
  9. Elhadad (1992).
  10. Bateman (1997).
  11. a et b Vander Linden (2000)
  12. Adapté de Bateman & Zock (2003) et de Vander Linden (2000).
  13. Exemple emprunté à McDonald (1991).
  14. Nombre qui varie bien sûr en fonction du domaine traité et de la précision recherchée.
  15. Adapté de Bateman & Zock (2003).

Voir aussi

Bibliographie

  • Bateman, J. (1997). Enabling technology for multilingual natural language generation: the KPML development environment. Journal of Natural Language Engineering, 3(1), 15-55.
  • Bateman, J. (2002). Natural Language Generation: an introduction and open-ended review of the state of the art.
  • Bateman, J. et M. Zock (2003). Natural Language Generation. The Oxford Handbook of Computational Linguistics. R. Mitkov (éd.), Oxford University Press, New York, 284-304.
  • Danlos, L. (1985). Génération automatique de textes en langue naturelle. Paris : Masson.
  • Elhadad, M. (1992). Using Argumentation to Control Lexical Choice: A Functional Unification-Based Approach. Ph.D. thesis, Department of Computer Science, Columbia University.
  • McDonald, D. (1991). On the place of words in the generation process. Natural Language Generation in Artificial Intelligence and Computational Linguistics. C. Paris, W. Swartout et W. Mann (éds.), Kluwer, Dordrecht, 229-247.
  • Vander Linden, K. (2000). Natural Language Generation. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. D. Jurafsky et J.H. Martin, Prentice Hall, Upper Saddle River, New Jersey, 763-798.

Articles connexes

Liens externes

Read other articles:

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Maret 2016. Danau Cheow Lan (Thai: เชี่ยวหลาน, dibaca: Chiao Lan) atan Bendungan Rajjaprabha (อ่างเก็บน้ำเขื่อนรัชชประภา, dibaca: Ratchaprapha~), Berada di Taman nasional Khao Sok di Provinsi Su...

 

Max-Holste MH-1521M Broussard Un aéronef de liaisons est une machine volante militaire, avion léger ou hélicoptère, dont les deux missions principales sont le transport militaire léger d'un seul ou de quelques officiers supérieurs, ou celui d'une estafette[1]. Contexte historique Seconde Guerre mondiale Les premiers aéronefs de liaisons étaient des avions légers monomoteurs apparus durant la Seconde Guerre mondiale. Ils assuraient des missions dites de liaisons, c'est-à-dire le tran...

 

The QuintURLhttps://www.thequint.com/ dan http://thequint.com TipeBeritaLangueInggris & HindiPemilikGaurav Mercantiles Ltd Raghav Bahl & Ritu Kapur (66.42%) Haldiram's Pvt Ltd (17-18%) Elara Capital Ltd (10%) Mohan Lal Jain (4.99%) Service entry2015Peringkat Alexa 8,552 (Global, Mei 2020)[1] 653 (India, Mei 2020)[1] The Quint adalah sebuah situs web media India berbahasa Inggris dan Hindi dan tersedia di beberapa platfrom medsos seperti instagram,youtube dan di google ...

Part of a series onBritish law Acts of Parliament of the United Kingdom Year      1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 ...

 

Canadian novelist, essayist, children's writer, journalist, filmmaker and poet Jacques GodboutJacques Godbout in 2014Born (1933-11-27) November 27, 1933 (age 90)Montreal, Quebec, CanadaOccupation(s)Film directorScreenwriterAuthorPoetYears active1958–present Jacques Godbout, OC, CQ (born November 27, 1933) is a Canadian novelist, essayist, children's writer, journalist, filmmaker and poet. By his own admission a bit of a dabbler (touche-à-tout), Godbout has become one of the most ...

 

муниципальный районВоробьёвский район Флаг[d] Герб 50°39′00″ с. ш. 40°56′00″ в. д.HGЯO Страна  Россия Входит в Воронежскую область Включает 4 муниципальных образования Адм. центр село Воробьёвка Глава администрации Письяуков Сергей Александрович Глава ...

Northern Ireland politician Sinéád EnnisMLAEnnis in 2017Member of the Northern Ireland Assemblyfor South DownIncumbentAssumed office 3 March 2017Preceded byCaitríona Ruane Personal detailsBornDerryleckaghNationalityIrishPolitical partySinn FéinWebsiteSinéad Ennis MLA Sinéad Ennis is a Sinn Féin politician, elected to the Northern Ireland Assembly for the South Down constituency in the March 2017 elections.[1] She is married and has two daughters. She has played Gaelic games...

 

eBay Inc. Тип Публичная компания Листинг на бирже NASDAQ: EBAY Основание 1995 год Основатели Пьер Омидьяр Расположение  США: Сан-Хосе, Калифорния Ключевые фигуры Дэвин Уэниг (CEO и президент) Отрасль аукционы Оборот ▲ 16,047 млрд долл. (2013 год)[1] Операционная прибыль ▲ 3 025,00 млрд до...

 

Зонтичные Вёх ядовитый (Cicuta virosa). Ботаническая иллюстрация из книги Köhler’s Medizinal-Pflanzen, 1887 Научная классификация Домен:ЭукариотыЦарство:РастенияКлада:Цветковые растенияКлада:ЭвдикотыКлада:СуперастеридыКлада:АстеридыКлада:КампанулидыПорядок:ЗонтикоцветныеСемейств...

Annual award given by the German Football Association Fritz Walter The Fritz Walter Medal is a series of annual awards given by the German Football Association to youth footballers in Germany. First awarded in 2005, it is named in honour of Fritz Walter, captain of West Germany's 1954 FIFA World Cup-winning team.[1] Winners 2005 [2] Under-19 Under-18 Under-17 Female Gold Florian Müller (Bayern Munich) Marc-André Kruska (Borussia Dortmund) Sergej Evljuskin (VfL Wolfsburg) Anj...

 

نيجي المسلسل ناروتو الملف الشخصي الجنس ذكر  العالم الخيالي قرية الورق المخفية  [لغات أخرى]‏  قتله أوبيتو أوتشيها،  ومادارا أوتشيها  البلد بلد النار  [لغات أخرى]‏  المهنة نينجا خيالي  [لغات أخرى]‏  معلومات النشر الظهور الأول في المانجا �...

 

American college basketball season 1980–81 Virginia Cavaliers men's basketballACC regular season championsNCAA tournament, Final FourConferenceAtlantic Coast ConferenceRankingCoachesNo. 3APNo. 5Record29–5 (13–1 ACC)Head coachTerry Holland (7th season)Assistant coaches Jim Larranaga (2nd season) Craig Littlepage (5th season) Home arenaUniversity HallSeasons← 1979–801981–82 → 1980–81 ACC men's basketball standings vte Conf Overall Team W ...

ديف باتيل (بالإنجليزية: Dev Patel)‏    معلومات شخصية الميلاد 23 أبريل 1990 (34 سنة)[1]  هارو  [لغات أخرى]‏[2]  مواطنة المملكة المتحدة[2]  العشير فريدا بينتو (2009–2014)[2]  الحياة العملية المهنة ممثل[3]،  ولاعب تايكوندو،  وممثل أفلام،  وممثل �...

 

November 19, 1863 historical event Consecration of the National Cemetery at GettysburgAbraham Lincoln (center) at the consecration just after arriving c. noon and ~3 hours before the speech.[citation needed] In 2006, two additional Gettysburg procession photographs of Lincoln were identified in the Library of Congress.[1]DateNovember 19, 1863Time~3 PMVenueCemetery Hill, Gettysburg National CemeteryLocationGettysburg, Adams Co, PennsylvaniaCoordinates39°49′11″N 77°1...

 

8-ма група психологічних операцій армії США8th Military Information Support Group (Airborne) Емблема 8-ї групи психологічних операцій армії СШАНа службі 26 серпня 2011 — по т. ч.Країна  СШАНалежність Сили спеціальних операцій СШАВид армія СШАТип Сили спеціальних операцій армії СШАРоль пс...

Japanese research institute 35°33′30″N 139°23′43″E / 35.558389°N 139.395255°E / 35.558389; 139.395255 This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Institute of Space and Astronautical Science – news · newspapers · books · scholar · JSTOR (February 2014) Instit...

 

Field of study in molecular properties Molecular engineering is an emerging field of study concerned with the design and testing of molecular properties, behavior and interactions in order to assemble better materials, systems, and processes for specific functions. This approach, in which observable properties of a macroscopic system are influenced by direct alteration of a molecular structure, falls into the broader category of “bottom-up” design. Molecular engineering deals with materia...

 

Coming-next Omar et Fred. Omar et Fred est le duo comique formé à la télévision et sur scène par les acteurs et humoristes Omar Sy et Fred Testot. Ils se sont notamment fait connaitre grâce à leur Service après-vente des émissions, diffusé du lundi au vendredi sur Canal+ dans Le Grand Journal entre 2005 et 2012. Biographie En 1997, Omar et Fred se rencontrent à Radio Nova grâce à Jamel Debbouze. Fred sortait de Fun Radio où il avait rencontré Éric et Ramzy. Ils commencent leur...

Adrian StreetStreet nel 2005Nazionalità Galles Luogo nascitaBrynmawr12 maggio 1940 MorteCwmbran24 luglio 2023 Ring nameAdrian StreetHell's Angel #1Kid Tarzan JonathanThe Nature Boy Altezza dichiarata170 cm Peso dichiarato107 kg AllenatoreChic OsmondMike Dimitre Debutto8 agosto 1957 Ritiro14 giugno 2014 Progetto Wrestling Manuale Adrian Street (Brynmawr, 12 maggio 1940 – Cwmbran, 24 luglio 2023) è stato un wrestler gallese. Sul ring era noto per il suo personaggio appariscente e andro...

 

Pour les articles homonymes, voir IPSEN. IpsenHistoireFondation 1929CadreType Laboratoire pharmaceutiqueForme juridique Société anonyme à conseil d'administration (s.a.i.)Domaines d'activité Activités des sièges sociaux, industrie pharmaceutiquePays  FranceOrganisationEffectif 5 700 employés (2020)Directeur David Loew (d) (depuis 2020)Filiales Ipsen (Ireland) (d), Ipsen (United Kingdom) (d), Ipsen (d)Chiffre d'affaires 2,5 G€ (2020)Résultat net 610,5 M€ (2020)Cotations ...