Synthèse vocale

Photographie en noir et blanc d'un homme à la tête penchée et avec des lunettes, souriant.
Stephen Hawking était l'une des personnes les plus connues utilisant ce genre de technique pour communiquer.

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur. Il s'agit, comme la reconnaissance vocale, d'une technologie permettant de construire des interfaces vocales. Parmi les applications, on peut citer la vocalisation d'écrans informatiques pour les personnes aveugles ou fortement malvoyantes[1] (lecteur d'écran), ainsi que de nombreuses applications de serveurs vocaux téléphoniques, comme les annuaires vocaux de grande taille, où la synthèse vocale est la seule technique viable pour permettre la restitution sonore des noms et des adresses des abonnés.

Historique

Trois vignettes verticales en noir et blanc
Dessin du synthétiseur vocal de Von Kempelen (1791).

Les enjeux de la synthèse vocale sont posés en 1761 par le mathématicien Leonhard Euler : « La construction d'une machine propre à exprimer tous les sons de nos paroles, avec toutes les articulations, seroit sans-doute une découverte bien importante. Si l'on réussissoit à l'éxécuter, & qu'on fut en état de lui faire prononcer toutes les paroles par le moyen de certaines touches, comme d'une orgue ou d'un clavecin, tout le monde seroit surpris, aves raison, d'entendre prononcer à une machine des discours entiers ou des sermons, qu il seroit possible d'accompagner avec la meilleur grace. Les prédicateurs & les orateurs, dont la voix n‘est pas affées forte ou agréable, pourroient alors jouer leurs sermons & discours sur cette machine, comme les organistes des pièces de musique. La chose ne me paroît pas impossible[2]. » Au moins quatre inventeurs ont apporté une contribution au XVIIIe siècle : Christian Gottlieb Kratzenstein, l'Abbé Mical (de), Erasmus Darwin et Wolfgang von Kempelen[3].

Plusieurs générations de techniques ont été proposées pour la tâche de synthèse vocale.

La toute première reposait sur une sorte d'instrument à vent conceptualisé par le baron Von Kempelen en 1784 et décrit dans un livre en 1791[4],[5]. Cet instrument était constitué de divers étages destinés à reproduire des organes humains entrant en jeu dans la production sonore. Cette machine a été l'objet de nombreuses répliques et adaptations[6]. Le résultat était très approximatif.

La seconde génération, populaire entre 1965 et 1985, est appelée synthèse vocale par règles ou synthèse vocale par formants. Elle est basée sur la modélisation paramétrique du spectre sonore de la parole, notamment à partir de ses formants mesurés en Hz. Des règles servent à décrire l'évolution temporelle des formants et des paramètres associés, ce qui permet de générer un spectre sonore artificiel à partir duquel on obtient le signal acoustique de synthèse. Cette technique, qui est entièrement synthétique, était compatible avec la mémoire informatique limitée disponible à cette époque.

Une troisième génération de techniques, semi-synthétiques, a ensuite été développée dès lors qu'on pouvait stocker de façon permanente dans une mémoire informatique des durées suffisantes de parole naturelle. Les techniques ont alors consisté à assembler (à « concaténer ») des petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité.

La première technique de cette génération est la synthèse vocale par diphones. Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres. Cette technique peut être produite pour le français à partir d'une base de 1 200 diphones, ce qui nécessite de stocker en tout quelque 120 secondes de parole, soit environ 2 mégaoctets de son numérisé. La parole synthétisée semble plus naturelle que celle produite par règles, mais des problèmes persistent lorsque la longueur de phonème, l'intonation et l'accent tonique sont pris en compte. Pour remédier à ces problèmes, il est possible d'augmenter la quantité d'extraits sonores à utiliser pour la concaténation. Plusieurs extraits pour un même diphone peuvent être utilisés dans un même contexte, et plusieurs types de contextes (intonation, accent, type de phrase) peuvent avoir chacun leurs diphones. On parle alors de synthèse par sélection de diphones ou sélection d'unités (Unit Selection). Ceux-ci sont ensuite utilisés lors de la synthèse vocale de façon à réduire les mauvaises transitions. Cette amélioration peut demander des bases de données de diphones de plusieurs mégaoctets, voire de plusieurs gigaoctets.

Techniques

Transcription phonétique

Fichier audio
Exemple de synthèse vocale
noicon
Des difficultés à utiliser ces médias ?
Des difficultés à utiliser ces médias ?
Des difficultés à utiliser ces médias ?

La première opération à réaliser par un logiciel de synthèse vocale est de transcrire le texte, généralement écrit sous une forme orthographique, en une séquence de phonèmes, qui représentent exactement les sons qui doivent être prononcés. La technique classique pour réaliser la transcription phonétique est d'appliquer à la suite de lettres composant le texte une série de règles de réécritures dépendant du contexte. En français, mais encore plus en anglais, il est aussi nécessaire de connaître la catégorie grammaticale de certains mots : par exemple dans la phrase « les présidents président » la catégorie grammaticale du mot « président » détermine sa voyelle finale (« e » muet ou le digramme « en »). Enfin pour les mots dont la prononciation n'est pas régulière, et notamment pour les noms propres, on stocke tout simplement leur transcription phonétique dans un lexique d'exception.

Formants

La synthèse par formants repose typiquement sur la description des trois premiers formants du spectre de la parole. Chaque formant (maximum du spectre de parole) est classiquement décrit par trois paramètres, sa fréquence (en Hz), son amplitude (en dB) et sa bande passante (en Hz). L'amplitude représente l'intensité du signal à la fréquence du formant tandis que la bande passante représente la largeur du spectre autour du maximum formantique.

Intonation et prosodie

L'intonation constitue l'un des trois éléments de la prosodie, les deux autres paramètres prosodiques étant le rythme et l'intensité. En fait, pour être perçue comme naturelle, la synthèse vocale nécessite d'imiter une prosodie naturelle dans son ensemble. Ceci nécessite de reproduire aussi un rythme naturel, c'est-à-dire une durée naturelle des sons élémentaires (phonèmes). Quant à l'intensité, qui correspond aussi au volume sonore, elle est beaucoup moins critique que l'intonation ou le rythme pour obtenir un rendu naturel.

On entend par intonation d'une phrase le parcours mélodique de la voix pendant la prononciation de la phrase. L'intonation se mesure par la fréquence fondamentale de la voix. C'est une fréquence variable au cours du temps correspondant à la fréquence de vibration des cordes vocales pendant l'énonciation de la phrase, et qui s'observe aisément comme la périodicité du signal vocal. Typiquement la fréquence fondamentale d'une voix masculine possède une plage de variation dans la zone des 80 Hz à 150 Hz tandis que celle d'une voix féminine se situera plutôt dans la zone des 140 Hz à 200 Hz.

L'intonation est une caractéristique importante de la voix naturelle, qui dépend également très fortement de la langue concernée et du contenu linguistique de la phrase. Pour les langues à tons comme le chinois mandarin ou cantonais, l'intonation conditionne même le sens des mots. En français, plus simplement, elle est une caractéristique reliée au type de phrase (affirmative, impérative, interrogative) et à la position des mots dans la phrase (intonation descendante en fin de phrase), et parfois reliée à la mise en valeur de certains mots (emphase). En tout cas, pour donner une impression de voix naturelle, la voix synthétique doit s'efforcer d'imiter l'intonation naturelle, et, à l'inverse, un énoncé synthétisé sans intonation est perçu comme anormal ; à la limite une voix synthétisée avec une fréquence fondamentale absolument constante, est perçue comme totalement artificielle (« voix de robot »).

Diphones

Un diphone représente la transition entre deux phonèmes successifs.

Logiciels capables de générer de la synthèse vocale

Quelques exemples :

Libres

Propriétaires

Gratuits
  • Utauloid (synthétiseur vocal), MBROLA (synthétiseur vocal), Yread (Windows, compatible avec le protocole SAPI 5.1), DSpeech (Windows, compatible avec le protocole SAPI 5.1), TTSReader (synthétiseur vocal).
Payants
  • Vocaloid
  • ReadSpeaker
  • Voxygen
  • Voice Reader (Windows)
  • Naturally Speaking (Windows)
  • Cepstral Swift (Windows Linux et Mac OS X)
  • SnapVoice (Windows)
  • eLite (Windows & Linux)
  • Digit PC (Windows)
  • Infovox Desktop (Windows) et Infovox iVox (Mac OS X)
  • Intelligent Speaker (Chrome, Firefox)
  • Speechissimo (Mac OS X)
  • Proloquo (Mac OS X)
  • GhostReader (Mac OS X)
  • VoiceOver (Apple)
  • DECtalk (en) software (Linux)
  • Zyyne (en ligne)
  • logiciels AIACA (clé USB)

Voir aussi

Notes et références

  1. Voir Accès des personnes ayant une déficience visuelle à l’outil informatique, article de Christian Coudert et Jean-Pierre Carpanini du Centre d’Évaluation et de Recherche sur les Technologies pour Aveugles et Malvoyants de l’Association Valentin Haüy (CERTAM).
  2. Leonhard Euler, "Lettre V. Sur les merveilles de la voix humaine", , in Lettres à une Princesse d'Allemagne sur divers sujets de physique. Tome second., Mietau / Leipzig,, Steidel, (lire en ligne), p. 276.
  3. (de) Fabian Brackhane, « Die Sprechmaschine Wolfgang von Kempelens - Von den Originalen bis zu den Nachbauten », Research Reports of the Institute of Phonetics at the University of the Saarland,‎ (lire en ligne).
  4. (de) Wolfgang von Kempelen, Mechanismus der menschlichen Sprache, Vienne, (lire en ligne).
  5. Wolfgang von Kempelen, Le mécanisme de la parole, Vienne, (lire en ligne).
  6. Stephane Nachez, « Si l'histoire de la synthèse vocale m'était contée - Actu IA », Actu IA,‎ (lire en ligne, consulté le ).

Liens externes

Read other articles:

Current Billboard logo. Eric Nam introducing BTS at KCON 2014 red carpet, August 10. List of K-pop albums on the Billboard charts is a compilation of weekly chart information for K-pop music published by the Billboard charts, and reported on by Billboard K-Town, an online Billboard column. This is a list of K-pop albums, EPs and releases by K-pop artists on the Billboard charts.[1][2] 2009–present This list depends on continual updates taken from *Billboard artist/title/cha...

 

Pour les articles homonymes, voir Sail. Mohamed SaïlBiographieNaissance 14 octobre 1894KabylieDécès Avril 1953 (à 58 ans)BobignyAutres noms Aït AmzianeNationalité Algérien - FrançaisActivité Anarcho-syndicalisteAutres informationsIdéologie AnarchismeMembre de Fédération AnarchisteConflit Guerre d'Espagnemodifier - modifier le code - modifier Wikidata Mohamed Saïl, de son nom complet Mohand Amezian ben Ameziane Saïl, né le 14 octobre 1894 à Taourirt, Souk Oufella (Kabylie...

 

Logo resmi Katolikos Seluruh Armenia Gereja Apostolik Armenia.BahasaArmenia klasikKantor pusatTakhta Induk Etchmiadzin Suci, Vagharshapat, ArmeniaDaerahArmenia,Nagorno-KarabakhKepemilikanRusia, Irak, Georgia, Prancis, Amerika Serikat, Libanon, Suriah, Yordania, Israel dan Palestina, Turki, Iran, Mesir, Kanada, Australia, Siprus, Yunani, Bulgaria, Belgia, Estonia, Latvia, Lithuania, Britania Raya, Jerman, Italia, Belanda, Spanyol, Rumania, Swedia, Swiss, Argentina, Brasil, Uruguay, Ukraina, Be...

Persepon PonorogoNama lengkapPersatuan Sepakbola PonorogoJulukanLaskar SuromenggoloBerdiri19 April 1960; 63 tahun lalu (19 April 1960)StadionStadion Batoro Katong(Kapasitas: 5,000)PemilikAskab PSSI PonorogoKetua SukirnoManajer Gatot SaimanPelatih Khoirul Anam[1]Asisten Pelatih SiswantoLigaLiga 3Situs webSitus web resmi klubKelompok suporter Warok Mania Bad Sector Crew 161 (BSC 161) Curva Nord Wengker (CNW) Kostum kandang Kostum tandang Persatuan Sepak Bola Ponorogo atau Pers...

 

Ne doit pas être confondu avec social-démocratie. L'expression socialisme démocratique désigne, dans son acception la plus répandue, un ensemble de courants socialistes caractérisés par la conviction que la construction d'une société socialiste, où existerait l'égalité la plus grande possible et où régnerait la justice, est compatible avec le respect des principes démocratiques. De manière plus précise, l'expression socialisme démocratique est aujourd'hui principalement emp...

 

Insurrection in parts of Spain during the First Spanish Republic Cantonal rebellionDate12 July 1873 – 3 January 1874LocationSpainResult Victory of the Republican GovernmentBelligerents Canton of Cartagena Cantonalist Rebels Spanish RepublicCommanders and leaders Juan Contreras y Román [es] Antonio Gálvez Arce [es] Arsenio Martínez Campos Manuel Pavía Part of a series onLibertarian socialism Political concepts Anti-authoritarianism Class conflict Decentralizatio...

Web accelerator produced by Google This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Google Web Accelerator – news · newspapers · books · scholar · JSTOR (Oc...

 

Fortified wine You can help expand this article with text translated from the corresponding article in German. (March 2016) Click [show] for important translation instructions. View a machine-translated version of the German article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated text into the ...

 

Questa voce sugli argomenti cestisti statunitensi e allenatori di pallacanestro statunitensi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti dei progetti di riferimento 1, 2. Tina Thompson Tina Thompson all'All-Star Game WNBA 2013 Nazionalità  Stati Uniti Altezza 188 cm Peso 81 kg Pallacanestro Ruolo Allenatrice (ex ala) Termine carriera 2013 - giocatrice Hall of fame Naismith Hall of Fame (2018)Women's Basketball Hall ...

Pagai UtaraGeografiLokasiAsia TenggaraKoordinat2°42′S 100°5′E / 2.700°S 100.083°E / -2.700; 100.083KepulauanKepulauan MentawaiPemerintahanNegaraIndonesiaProvinsiSumatera BaratKabupatenKepulauan MentawaiKependudukanPenduduk13.000 jiwa Pagai Utara adalah salah satu pulau di Kepulauan Mentawai di lepas pantai barat Sumatra di Indonesia. Pulau ini berada di sebalah selatan Pulau Sipora dan di sebelah utara Pulau Pagai Selatan. Kota Sikakap digunakan sebagai pu...

 

Alhassan Yusuf Nazionalità  Nigeria Altezza 175 cm Calcio Ruolo Centrocampista Squadra  Anversa CarrieraGiovanili 20??-20?? FC Hearts Nigeria20??-20?? TikiTaka Football DevelopmentSquadre di club1 2018-2021 IFK Göteborg66 (2)2021- Anversa67 (3) [1]Nazionale 2024- Nigeria4 (0)Palmarès  Coppa d'Africa Argento Costa d'Avorio 2023 1 I due numeri indicano le presenze e le reti segnate, per le sole partite di campionato.Il simbolo → indica un trasferimento in ...

 

2016年美國總統選舉 ← 2012 2016年11月8日 2020 → 538個選舉人團席位獲勝需270票民意調查投票率55.7%[1][2] ▲ 0.8 %   获提名人 唐納·川普 希拉莉·克林頓 政党 共和黨 民主党 家鄉州 紐約州 紐約州 竞选搭档 迈克·彭斯 蒂姆·凱恩 选举人票 304[3][4][註 1] 227[5] 胜出州/省 30 + 緬-2 20 + DC 民選得票 62,984,828[6] 65,853,514[6]...

2020年夏季奥林匹克运动会马来西亚代表團马来西亚国旗IOC編碼MASNOC马来西亚奥林匹克理事会網站olympic.org.my(英文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員30參賽項目10个大项旗手开幕式:李梓嘉和吳柳螢(羽毛球)[1][2]閉幕式:潘德莉拉(跳水)[3]獎牌榜排名第74 金牌 銀牌 銅�...

 

Elvis in ConcertAlbum live karya Elvis PresleyDirilis3 Oktober 1977TempatOmaha, Nebraska (19 Juni)Rapid City, South Dakota (21 Juni)GenreRockLabelRCA RecordsProduserFelton Jarvis, Elvis PresleyKronologi Elvis Presley Moody Blue (1977)Moody Blue1977 Elvis in Concert (1977) He Walks Beside Me (1978)He Walks Beside Me1978 Singel dalam album Elvis in Concert My Way[1]Dirilis: 25 November 1977 Penilaian profesional Skor ulasan Sumber Nilai AllMusic [2] MusicHound [3] Ro...

 

County of England This article is about the county of England. For the Canadian city, see Surrey, British Columbia. For other uses, see Surrey (disambiguation). Non-metropolitan and ceremonial county in EnglandSurreyNon-metropolitan and ceremonial countyClockwise from top: Guildford and its cathedral; the view from Leith Hill; and EpsomCeremonial Surrey within England Ceremonial SurreyHistoric Surrey in the British Isles Historic SurreyCoordinates: 51°15′N 0°27′W / 51.25...

Mappa della Repubblica popolare Cinese e della Repubblica di Cina Le principali città della Cina (non contando gli agglomerati) ordinate per popolazione (stima 2010, 2017 per la Repubblica di Cina). Lista aree urbane Nome sempl. Nome trad. Hanyu Pinyin Nome in italiano popolazione (stima 2010, 2017 per la Repubblica di Cina) Immagine giurisdizione Regione 上海 上海 Shànghǎi Shanghai 20 217 748 Repubblica popolare cinese Est 北京 北京 Běijīng Pechino 16 446 857...

 

Annual publication of university rankings Times Higher Education World University RankingsEditorPhil BatyCategoriesHigher educationFrequencyAnnualPublisherTimes Higher EducationFirst issue2004; 20 years ago (2004) (in partnership with QS)2010; 14 years ago (2010) (on its own)CountryUnited KingdomLanguageEnglishWebsitewww.timeshighereducation.com/world-university-rankings/ The Times Higher Education World University Rankings, often referred to as the THE Ran...

 

Bus manufacturing company owned by Navistar International IC BusFormerlyIC Corporation (Integrated Coach Corporation)Company typeSubsidiaryIndustryManufacturing (Transportation)Predecessor American Transportation Corporation (AmTran) Ward Body Works Founded2002Headquarters2601 Navistar DrLisle, Illinois 60532Number of locations1 Tulsa, Oklahoma (assembly) Area servedNorth AmericaKey peopleJohn McKinney, PresidentProducts School Buses Commercial Buses Transit Buses ParentNavistarWebsiteIC Bus ...

نظام هيبورنمعلومات عامةصنف فرعي من نسخ كتابي الاسم الأصل ヘボン式ローマ字 (باليابانية) سُمِّي باسم جيمس كورتيس هيبورن لغة العمل أو لغة الاسم اليابانية المكتشف أو المخترع جيمس كورتيس هيبورن زمن الاكتشاف أو الاختراع 1886 تعديل - تعديل مصدري - تعديل ويكي بيانات كتابة يابانية العنا...

 

English football player and manager (born 1937) Wilf McGuinness McGuinness in 2013Personal informationFull name Wilfred McGuinness[1]Date of birth (1937-10-25) 25 October 1937 (age 86)[1]Place of birth Manchester, England[1]Position(s) Wing halfYouth career1953–1954 Manchester UnitedSenior career*Years Team Apps (Gls)1954–1959 Manchester United 81 (2)International career England Schoolboys England Youth 4 (?) England U23 1 (?)1958–1959 England 2 (0)Manageria...