Descodificador acústic fonètic

Un descodificador acústic-fonètic és un mòdul format per un conjunt d'informacions que procedeix de diverses fonts de coneixement; per exemple una font acústica, fonètica, fonològica o lèxica; amb els corresponents procediments interpretatius, amb l'objectiu d'obtenir una interpretació del senyal vocal en funció d'un cert conjunt d'unitats lingüístiques.

S'utilitza al reconeixement de la parla automàtic, que és una part de la intel·ligència artificial en la qual disciplines com la teoria del senyal o la fonètica juguen papers importants i que té com a objectiu permetre la comunicació parlada entre éssers humans i ordinadors. El seu principal problema és el de fer cooperar un conjunt d'informacions en presència d'ambigüitats, incerteses i errors inevitables per arribar a obtenir una interpretació acceptable del missatge acústic rebut.

Esquema principal

AND linealment separable

L'entrada al descodificador acústic fonètic és el senyal vocal convenientment representat. Per a això, cal que aquest pateixi un preprocés de parametrització. En aquesta etapa prèvia és necessari assumir algun model físic. Actualment, els models auditius són els més utilitzats, mentre que els models basats en la producció de la veu estan poc desenvolupats. En particular, es creu que els models articulatoris podrien ser més convenients per representar el senyal vocal.

D'altra banda, els models actualment utilitzats són bàsicament estàtics, on s'assumeix que el senyal vocal és quasi estacionari en intervals curts de temps.

Parametrització

Parametrització

Els algorismes de reconeixement de patrons requereixen reduir dràsticament el volum de dades del senyal, l'eliminació de tota informació redundant o inútil i mantenir només informació rellevant. Aquesta discriminació s'executa durant el procés de parametrització, que consisteix en la conversió A/D del senyal de veu (filtre antialiàsing, mostratge i quantificació). D'ella s'obté una seqüència de nombres tractable computacionalment que no conté tota la informació acústica però si tota la informació que interessa a efectes de reconeixement. La seqüència de mostres/nombres es divideix en petites trames i se li aplica diferents tipus d'anàlisi, ja sigui en el temps (energia, creuament per zero, en freqüència (banc de filtres, transformada de Fourier) o paramètrics (predicció lineal). L'objectiu final és l'obtenció màxima d'informació en el menor espai possible. De vegades se sol aplicar tècniques d'anàlisi lineal discriminant (<<Linear Discriminen Analysis>>). Una altra tècnica utilitzada és el filtre Cepstrum o <<liftering>> que modula l'envolupant espectral permetent una menor dependència del locutor i de les condicions de la transmissió del senyal.

Modelització acústica

La major part dels sistemes de DAF desenvolupats inicialment treballaven amb un conjunt d'unitats independents del context, molt pròxim al conjunt de fonemes de la llengua. No obstant això, aviat es va veure la necessitat d'ampliar aquest conjunt bàsic d'unitats per tractar de recollir la variabilitat contextual rellevant en la discriminació acústica. La introducció de contextos ha produït increments notables de les taxes de reconeixement en sistemes per a grans vocabularis i / o discurs continu. Hi ha evidència experimental que com més detallat resulta el modelatge acústic, millor és el rendiment del sistema de reconeixement. No obstant això, si se selecciona un nombre gran d'unitats es produeix l'inconvenient que els models de les unitats deixen d'estar ben entrenats, ja que el nombre de paràmetres creix excessivament.

D'aquesta manera apareix la necessitat d'establir criteris que permetin obtenir inventaris d'unitats amb una adequada modelització de la coarticulació i compatibles amb un entrenament robust i un sistema de reconeixement adequat. Quant a la metodologia, els Models Ocults de Markov constitueixen l'elecció més estesa, tant en la seva formulació discreta, que treballa amb etiquetes o símbols, com en la contínua i semicontínua, que treballen directament amb vectors acústics. Per a la descodificació s'utilitza l'algorisme de Viterbi que produeix la seqüència d'estats òptima donats una seqüència acústica i un conjunt de models. Des de la introducció dels Models Ocults de Markov s'han proposat multitud de millores tant a nivell de la mateixa estructura, com de les tècniques utilitzades per reestimar els paràmetres dels models.

Modelització del llenguatge

El bloc de Modelització del Llenguatge tracta d'aplicar les regles gramaticals que regeixen la comunicació parlada en una determinada tasca, per facilitar el reconeixement de la cadena d'unitats acústiques generada pel mòdul DAF, o la comprensió d'un missatge a partir d'aquesta cadena. Per això té en compte no només el contingut lèxic i les regles sintàctiques, sinó també aspectes pràctics i semàntics.

Els models de llenguatdge més utilitzats són els n-grames (en particular, els bigrames i els trigrames), que descriuen la probabilitat d'observar una determinada paraula donades les n-1 anteriors. Els n-grames són capaços de capturar un gran percentatge de fenòmens sintàctics i semàntics i poden incorporar fàcilment en els algorismes de reconeixement més utilitzats. A més, els bigrames no afegeixen cap cost computacional en el reconeixement amb respecte al sistema sense model del llenguatge.

Disseny

Per al disseny d'un DAF cal triar

  • El tipus d'unitat sublèxica
  • El tipus de models amb les tècniques que li siguin pròpies

Problemes que planteja el disseny

En el disseny d'un descodificador acústic fonètic apareixen diversos problemes per als quals no s'han aportat solucions satisfactòries.

  1. En primer lloc, caldria citar el problema de la modelització sublèxiques, en particular, l'elecció de les unitats subléxicas adequades. Actualment, certes unitats de tipus fonètic són les més utilitzades. En principi sembla necessari que les unitats subléxicas han d'estar relacionades amb unitats lingüístiques per tal de caracteritzar el vocabulari de l'aplicació concreta, i sense que es necessitin mostres d'entrenament per a totes les paraules que el componen.
  2. D'altra banda és necessari relacionar aquestes unitats amb informació acústica, que caldrà caracteritzar estadísticament. La Fonologia pot aportar també informació sobre les regles que governen les possibles seqüències d'unitats subléxicas, el que permetria depurar alguns dels errors inevitables que produeix el descodificador acústic-fonètic.
  3. Finalment, altres problemes amb què cal enfrontar-se en el disseny d'un descodificador acústic-fonètic i que són de difícil solució són el de la coarticulació i el de la modelització de certes paraules curtes que poden canviar el significat d'una pronunciació i la interpretació d'un missatge acústic.

Model de disseny

AND linealment separable

  • Anàlisi: Transformacions sobre la veu (anàlisi espectral, anàlisi temporal...).
  • Detector: Detecta els caràcters acústics de les unitats fonètiques(formants, energia nasal, fricativa, sonora/sorda).
  • Etiquetat: Genera cadena de fonemes que compara amb el vocabulari.
  • Estratègia de control: restriccions tals com el nombre de fonemes per paraula...

Descodificació acústica fonètica utilitzant unitats sublèxiques

El modelat acústic utilitzant unitats sublèxiques consisteix a considerar que tota realització oral pot ser descomposta en una successió de sons diferents tals que cada un d'ells potser associat de manera única a un símbol-unitat sublèxica-pres d'un conjunt finit.

Condicions

Les condicions que han de complir les unitats sublèxiques per resultar d'utilitat en reconeixement de la parla són:

  1. Han de constituir un conjunt finit i complet que permeti una transcripció biunívoca de qualsevol missatge oral.
  2. Les diferents unitats sublèxiques han de ser distingibles unes de les altres a partir dels seus característiques acústiques.
  3. Les característiques acústiques de les diferents realitzacions d'una unitat acústica no han de dependre del context concret en què es troben.

Fonema

L'elecció més immediata d'unitat sublèxica per al reconeixement de la parla contínua és el fonema. Tot missatge oral pot ser representat en forma de cadena de fonemes, els quals presenten característiques acústiques que, més o menys, permeten la seva diferenciació de la resta. El fonema presenta un greu inconvenient que limita les seves prestacions i dificulta el seu entrenament: la dependència del context de les seves característiques acústiques per culpa de la coarticulació.

Models i tècniques que s'utilitzen al DAF

  • Aproximacions basades en regles: sistemes basats en el coneixement
  • Aproximacions basades en mesures de distància: tècniques de comparació entre plantilles (seqüències de vectors de característiques o primitives)
  • Aproximacions probabilístiques: part del Model ocult de Markov i constitueix una de les més importants tècniques que s'empren en l'actualitat.
  • Aproximacions basades en funcions discriminants: models basats en les Xarxes Neuronals Artificials.

Vegeu també

Enllaços externs

Read other articles:

KDevelop KDevelop 4TipeLingkungan pengembangan terpadu Versi pertama1.0 (1999-12-6)Versi stabil 5.12.230804 (7 Desember 2023) GenreIntegrated development environmentLisensiGNU General Public LicenseBahasaDaftar bahasa more than 30 languages Bagian dariKDE Gear (en) Karakteristik teknisSistem operasiCross-platform(Unix-like OS's)Bahasa pemrogramanC++ Format kodeDaftarKDevelop Project (en), KDevelop Project (with rem) (en) dan KDevelop Session (en) Format berkasDaftarKDevelop Project (en), KDev...

 

Artikel ini perlu diterjemahkan dari bahasa Inggris ke bahasa Indonesia. Artikel ini ditulis atau diterjemahkan secara buruk dari Wikipedia bahasa Inggris. Jika halaman ini ditujukan untuk komunitas bahasa Inggris, halaman itu harus dikontribusikan ke Wikipedia bahasa Inggris. Lihat daftar bahasa Wikipedia. Artikel yang tidak diterjemahkan dapat dihapus secara cepat sesuai kriteria A2. Jika Anda ingin memeriksa artikel ini, Anda boleh menggunakan mesin penerjemah. Namun ingat, mohon tidak men...

 

Universitas Prasetiya MulyaMotoA COLLABORATIVE LEARNING BY ENTERPRISINGJenisUniversitas swastaDidirikan1982RektorProf. Dr. Djisman S. Simandjuntak DekanDr. Fathony Rahman Dr. N. Hassan Wirajuda Stevanus Wisnu Wijaya, Ph.D.AlamatKavling Edutown I.1 Jl. BSD Raya Utama, BSD City, Tangerang, IndonesiaWarnaBiru TuaNama julukanPrasmulyanSitus webwww.prasetiyamulya.ac.id Universitas Prasetiya Mulya adalah institusi pendidikan di Indonesia yang berbasis di BSD City, Banten. Universitas ini memiliki k...

British politician This article is about the British politician. He is not to be confused with Patrick Jenkins. The Right HonourableThe Lord Jenkin of RodingPCPatrick JenkinSecretary of State for the EnvironmentIn office12 June 1983 – 2 September 1985Prime MinisterMargaret ThatcherPreceded byTom KingSucceeded byKenneth BakerSecretary of State for IndustryIn office14 September 1981 – 12 June 1983Prime MinisterMargaret ThatcherPreceded byKeith JosephSucceeded byCecil Parki...

 

Pour les articles homonymes, voir Aleksandar Petrović (homonymie). Aleksandar Petrović Aleksandar Petrović en 1987. Données clés Surnom Saša PetrovićSacha Petrović Naissance 14 janvier 192914e arrondissement de Paris Nationalité Yougoslave Française Décès 20 août 1994 (à 65 ans)13e arrondissement de Paris Profession RéalisateurScénariste Films notables TriJ'ai même rencontré des Tziganes heureuxIl pleut dans mon villageLe Maître et MargueritePortrait de grou...

 

Katedral PesaroKatedral Santa Maria Diangkat ke Surgabahasa Italia: Cattedrale di S. Maria AssuntaKatedral PesaroLokasiPesaroNegaraItaliaDenominasiGereja Katolik RomaArsitekturStatusKatedralStatus fungsionalAktifAdministrasiKeuskupanKeuskupan Agung Pesaro Katedral Pesaro (bahasa Italia: Duomo di Pesaro; Cattedrale di Santa Maria Assunta) adalah sebuah gereja katedral Katolik yang terletak di Pesaro, Marche , Italia, didedikasikan untuk Maria Diangkat ke Surga. Ini adalah tahta uskup a...

Commemoration of 100 years of the Armenian genocideThe official logo for the genocide centenary was a Forget-me-not flowerDateApril 24, 2015 (2015-04-24)LocationArmenia and Armenian diasporaAlso known asCentenary (also, incorrectly, 'Centennial') of the Armenian genocideParticipantsArmenians worldwide and supporters The 100th anniversary of the Armenian genocide (Armenian: Հայոց ցեղասպանության 100-րդ տարելից) was commemorated on April 24, 2015. April...

 

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: コルク – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2017年4月) コルクを打ち抜いて作った瓶の栓 コルク(木栓、�...

 

Third World countries which the USSR recognized as adhering to the ideas of socialism Part of a series onMarxism–Leninism Concepts Administrative-command system Anti-imperialism Anti-revisionism Central planning Soviet-type economic planning Collective farming Collective leadership Commanding heights of the economy Democratic centralism Dialectical logic Dialectical materialism Foco Intensification of the class struggleunder socialism Labor aristocracy Marxist–Leninist atheism One-party s...

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。 数字の大字(だいじ)は、漢数字の一種。通常用いる単純な字形の漢数字(小字)の代わりに同じ音の別の漢字を用いるものである。 概要 壱万円日本銀行券(「壱」が大字) 弐千円日本銀行券(「弐」が大字) 漢数字には「一」「二」「三」と続く小字と、「壱」「�...

 

حسن كامي معلومات شخصية الميلاد 2 نوفمبر 1936   القاهرة  الوفاة 14 ديسمبر 2018 (82 سنة)   القاهرة  مواطنة مصر  الحياة العملية المدرسة الأم جامعة القاهرة (التخصص:قانون) (الشهادة:إجازة جامعية)  المهنة مغني أوبرا،  وممثل  اللغات العربية  المواقع IMDB صفحته على IMDB ...

 

Tan RuiwuPersonal informationKebangsaan KroasiaLahir30 Juni 1983 (umur 40)Shenyang, ChinaGaya bermainLeft-handed, shakehand gripPeringkat tertinggi48 (Desember 2012)[1]Tinggi164 m (538 ft 1⁄2 in)Berat50 kg (110 pon) Ini adalah nama Tionghoa; marganya adalah Tan. Tan Ruiwu (lahir 30 Juni 1983) adalah pemain tenis meja berkewarganegaraan Kroasia asal Cina.[2] Pada Desember 2012, ia berada di peringkat no. 48 di dunia oleh Federasi Tenis M...

Village in County Tipperary, Ireland Village in Munster, IrelandBallyporeen Béal Átha PóirinVillageThe R665 through Ballyporeen, once part of the main Dublin - Cork coach road.BallyporeenLocation in IrelandCoordinates: 52°16′12″N 8°06′00″W / 52.26994°N 8.10001°W / 52.26994; -8.10001CountryIrelandProvinceMunsterCountyCounty TipperaryDáil ÉireannTipperaryElevation82 m (269 ft)Population (2016)[1]318Dialing code0 52, +000 353 (0)52I...

 

American politician (1923–2021) Bob DoleOfficial portrait, c. 1980sSenate Majority LeaderIn officeJanuary 3, 1995 – June 11, 1996WhipTrent LottPreceded byGeorge MitchellSucceeded byTrent LottIn officeJanuary 3, 1985 – January 3, 1987WhipAlan SimpsonPreceded byHoward BakerSucceeded byRobert ByrdSenate Minority LeaderIn officeJanuary 3, 1987 – January 3, 1995WhipAlan SimpsonPreceded byRobert ByrdSucceeded byTom DaschleLeader of the Senate Republican Conf...

 

Abugida-type writing systemSoyombo script𑪁𑩖𑩻𑩖𑪌𑩰𑩖 𑩰𑩑𑩢𑩑𑪊‎Script type Abugida CreatorZanabazar, 1686Time period1686[1]–18th centuryDirectionLeft-to-right LanguagesMongolian, Tibetan, SanskritRelated scriptsParent systemsEgyptian hieroglyphs[a]Proto-Sinaitic script[a]Phoenician alphabet [a]Aramaic alphabet [a]BrāhmīGuptaSiddhaṃNepaleseRanjana (or Devanagari)Soyombo scriptISO 15924ISO 15924Soyo (329), ​SoyomboUnicodeUnicode a...

Israeli rabbi (1885–1969) For the diplomat, see Aryeh Levin (diplomat). RabbiAryeh LevinSimcha Holtzberg (left) with Rabbi Aryeh LevinPersonalBornMarch 22, 1885OrlaDied28 March 1969(1969-03-28) (aged 84)JerusalemReligionJudaismPositionMashgiachYeshivaEtz Chaim YeshivaBuriedSanhedria Cemetery Aryeh Levin (Hebrew: אריה לוין; March 22, 1885 - March 28, 1969) was an Orthodox rabbi dubbed the Father of Prisoners for his visits to members of the Jewish underground imprisoned in the C...

 

American politician (1804–1878) This article includes a list of references, related reading, or external links, but its sources remain unclear because it lacks inline citations. Please help improve this article by introducing more precise citations. (March 2016) (Learn how and when to remove this message) Charles ConradMember of the C.S. House of Representativesfrom Louisiana's 2nd districtIn officeFebruary 18, 1862 – March 18, 1865Preceded byConstituency establishedSucceeded byC...

 

artikel ini tidak memiliki pranala ke artikel lain. Tidak ada alasan yang diberikan. Bantu kami untuk mengembangkannya dengan memberikan pranala ke artikel lain secukupnya. (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Artikel atau bagian mungkin perlu ditulis ulang agar sesuai dengan standar kualitas Wikipedia. Anda dapat membantu memperbaikinya. Halaman pembicaraan dari artikel ini mungkin berisi beberapa saran. Fungsi Tari : Tontonan / hiburan rakyat dan Prosesi ...

Disused railway station in Billingham, Stockton-on-Tees Belasis LaneThe remains of the station in 1970General informationLocationBillingham, Stockton-on-TeesEnglandCoordinates54°36′00″N 1°16′26″W / 54.6°N 1.274°W / 54.6; -1.274Grid referenceNZ470230Platforms2Other informationStatusDisusedHistoryOriginal companyLondon and North Eastern RailwayPost-groupingLondon and North Eastern RailwayBritish Rail (North Eastern)Key datesMay 1928 (1928-05)Opened1...

 

This article is about the Spanish singer. For other uses, see Salome (disambiguation). In this Spanish name, the first or paternal surname is Marco and the second or maternal family name is Poquet. SaloméBackground informationBirth nameMaria Rosa Marco PoquetAlso known asLa MorlaBorn (1939-06-21) 21 June 1939 (age 85)Barcelona, SpainGenresBolero, PopOccupation(s)SingerYears active1960–2005LabelsZafiro, Belter, IberofonMusical artist Maria Rosa Marco Poquet (Catalan pronunciati...