Reconhecimento de fala

Reconhecimento subvocal

Reconhecimento de fala é uma área interdisciplinar originária da linguística computacional cujo objetivo é desenvolver métodos e tecnologias que permitam o reconhecimento e a transcrição de linguagem falada de maneira automática. As tecnologias de reconhecimento de fala são normalmente conhecidas pela sigla em inglês ASR de Automatic Speech Recognition (reconhecimento automático de fala), Computer Speech Recognition (reconhecimento de fala por computador) ou STT de Speech to Text (fala para texto).

Visão Geral

Tecnologias de reconhecimento da fala permitem que computadores equipados com microfones reconheçam a fala humana, por exemplo, transcrevendo-a em texto que pode ser revertido em comandos. Por outro lado, o reconhecimento de voz é um problema distinto no qual o objetivo é identificar de maneira automática o falante em uma conversa. Em outras palavras, enquanto o reconhecimento de fala se preocupa em transcrever o áudio de uma fala para que um sistema computacional possa compreender a informação que está sendo falada, o reconhecimento de voz se preocupa em descobrir quem é o falante. As técnicas de reconhecimento de voz podem ter objetivo forense ou objetivarem a aplicação do sistema computacional a um ambiente com múltiplos falantes, como uma conversa entre seres humanos.

Os sistemas de reconhecimento de fala podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).

Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do sistema decimal. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos. Além disso, sistemas com vocabulário restrito podem ser usados para implementar comandos por voz, uma vez que se torna mais fácil para o sistema reconhecer palavras ou frases previamente estabelecidas. Essas palavras podem ser interpretadas pelo sistema como comandos e programadas para a execução de uma rotina específica pelo sistema.

Sistemas comerciais para reconhecimento da fala têm estado disponíveis desde os anos 90, porém é interessante notar que, apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.

Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um teclado convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.

Alguns dos problemas técnicos chaves do reconhecimento da fala são:

  • Diferenças entre os interlocutores são frequentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
  • A interpretação de vários fonemas, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies"[1] pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
  • A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
  • Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
  • A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).

O entendimento do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Há vários exemplos de frases que soam iguais e só podem ser desambiguadas pelo contexto: uma famosa camisa vestida por pesquisadores da Apple Inc. dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer a fala].

Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano, experiência e uma avançada tecnologia em inteligência artificial. Especificamente, modelos estatísticos de linguagem são frequentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.

História

As tecnologias de reconhecimento de fala tem seu início conjuntamente com a indústria telefônica, visando o aperfeiçoamento dos sistemas de comunicação. No anos de 1930, pesquisadores dos Laboratórios Bell propuseram o primeiro modelo para análise e síntese de fala.[1]

Soluções Comerciais

Atualmente existem diversas pesquisas em andamento em diferente universidades e empresas do mundo. Algumas soluções comerciais com diferentes graus de desempenhos são:

Nota

No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".

Referências

  1. Juang, B. H.; Rabiner, Lawrence R. «Automatic speech recognition–a brief history of the technology development» (PDF): 6. Consultado em 17 de janeiro de 2015. Cópia arquivada (PDF) em 17 de agosto de 2004 

Read other articles:

Hijau tentara Prajurit Denzipur 2/PS TNI-AD mengenakan seragam pakaian dinas upacara (PDU) berwarna hijau tentaraCommon connotationsAngkatan darat     Koordinat warnaTriplet hex#4B5320sRGBB    (r, g, b)(75, 83, 32)CMYKH   (c, m, y, k)(10, 0, 62, 67)HSV       (h, s, v)(69°, 61%, 33%)SumberColorHexa[1]B: Dinormalkan ke [0–255] (bita)H: Dinormalkan ke [0–100] (ratusan) Hijau tentara (Inggris: Army greencode: en is deprecated ) adalah ...

 

Regional councilUpper Galilee גליל עליון‎Regional council (from 1950)DistrictNorthernGovernment • Head of MunicipalityGiora ZaltzArea • Total296,560 dunams (296.56 km2 or 114.50 sq mi)Population (2014) • Total17,000 • Density57/km2 (150/sq mi)WebsiteOfficial website The Upper Galilee Regional Council (Hebrew: מוֹעָצָה אֲזוֹרִית הַגָּלִיל הַעֶלְיוֹן, transl...

 

Ini adalah nama Batak Angkola, marganya adalah Dalimunthe. Abdul Wahab Dalimunthe Anggota Dewan Perwakilan Rakyat Republik IndonesiaMasa jabatan6 April 2017 – 8 November 2021Pengganti antar waktu hingga 1 Oktober 2019 PendahuluRuhut SitompulPenggantiHendrik Sitompul[1]Daerah pemilihanSumatera Utara IMasa jabatan1 Oktober 2009 – 1 Oktober 2014Daerah pemilihanSumatera Utara IKetua DPRD Sumatera UtaraMasa jabatan2004–2008PresidenMegawati SoekarnoputriSusilo Bamban...

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Windows Home Server – berita · surat kabar · buku · cendekiawan · JSTOR Windows Home Server, yang memiliki nama kode pengembangan Quatro, adalah sebuah versi sistem operasi Microsoft Windows yang dikemba...

 

School in Desnianskyi District, Kyiv, UkraineKyiv Secondary School No. 189Address5 Milyutenko StreetDesnianskyi District, Kyiv, 02156UkraineCoordinates50°27′59.37″N 30°38′1.74″E / 50.4664917°N 30.6338167°E / 50.4664917; 30.6338167InformationTypeComprehensive school, Public, Specialized schoolEstablishedSeptember 1, 1967 (1967-09-01)PrincipalOlenych Tetyana OlexandrivnaTeaching staff15[1]Grades1–11Enrollment~1200Websiteschool189-kiev...

 

اختصاراتوب:صرحر هذه صفحة مساعدة لكيفية عمل شيء ما.تفصّل هذه الصفحة طرق أو إجراءات بعض جوانب قواعد وممارسات ويكيبيديا. هذه الصفحة ليست واحدة من سياسات أو إرشادات ويكيبيديا، حيث لم تفحص بدقة عبر المجتمع. عدد نطاق تبصرة تحرير نطاق أنشئ صفحة تبصرة تحرير 0 رئيسي: (مقالات) قالب:تب�...

The topic of this article may not meet Wikipedia's general notability guideline. Please help to demonstrate the notability of the topic by citing reliable secondary sources that are independent of the topic and provide significant coverage of it beyond a mere trivial mention. If notability cannot be shown, the article is likely to be merged, redirected, or deleted.Find sources: Jakku – news · newspapers · books · scholar · JSTOR (November 2023) (Learn...

 

Cet article est une ébauche concernant le monde celtique. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Le calendrier de Coligny Le calendrier celtique était le calendrier de la civilisation celtique. Selon les sources irlandaises, branche celtique qui a subsisté, l'année celtique était rythmée par quatre grandes fêtes religieuses au caractère obligatoire, dont deux majeures : Samain au 31 octobre...

 

Jalan Vincent di Cessnock Cessnock adalah sebuah kota di Wilayah Hunter dari New South Wales, Australia. Letak Cessnock berjarak sekitar 52 kilometer dari Newcastle bila melalui perjalanan darat ke arah barat. Artikel bertopik Australia ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.lbs

Eglise Saint-Joseph de MontrougePrésentationType EgliseSurnom(s) Eglise Saint-JosephRattachement Église catholique en FranceDiocèse Diocèse de NanterreParoisse Paroisse Sainte Joséphine-Bakhita de MontrougeDédicataire Saint-JosephStyle ContemporainConstruction 1936Ouverture 1963 fin des travauxReligion CatholicismeSite web Googlemaps.frLocalisationDivision administrative Hauts-de-SeineCommune MontrougeQuartier Jean-Jaurès, Plein SudAdresse 5, rue Henri-BarbusseRégion historique Île-d...

 

「アプリケーション」はこの項目へ転送されています。英語の意味については「wikt:応用」、「wikt:application」をご覧ください。 この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2018年4月) 古い情報を更新する必要があります。(2021年3月)出...

 

العلاقات السعودية الليبيرية السعودية ليبيريا   السعودية   ليبيريا تعديل مصدري - تعديل   العلاقات السعودية الليبيرية هي العلاقات الثنائية التي تجمع بين السعودية وليبيريا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه ا...

American media franchise This article is about the media franchise. For the first film in the franchise, see John Wick (film). For other uses, see John Wick (disambiguation). John WickOfficial logoCreated byDerek KolstadOriginal workJohn Wick (2014)OwnerLionsgate (via Summit Entertainment)Years2014–presentPrint publicationsComicsJohn Wick (2017–2019)Films and televisionFilm(s) John Wick (2014) Chapter 2 (2017) Chapter 3 – Parabellum (2019) Chapter 4 (2023) John Wick Presents: Ballerina ...

 

v · mCommune de Leeuwarden Villes Grou Leeuwarden Stiens Villages et hameaux Alde Leie Baard Bartlehiem Bears Britsum Eagum Easterlittens Feinsum Friens Goutum Hempens Hijum Hilaard Húns Idaerd Jellum Jelsum Jirnsum Jorwert Koarnjum Lekkum Leons Mantgum Miedum Reduzum Snakkerburen Swichum Teerns Vrouwbuurtstermolen Warstiens Warten Weidum Wergea Wirdum Wytgaard Pays-Bas Frise Communes des Pays-Bas  Documentation de palette[créer] [purger] Ceci est la documentatio...

 

Machine that generates X-rays This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: X-ray machine – news · newspapers · books · scholar · JSTOR (July 2008) (Learn how and when to remove this message) A radiology room table. The X-ray housing is turned by 90° for a chest radiograph An X-ray machine is a device tha...

2020 EP by David Bowie Is It Any Wonder?EP by David BowieReleased 14 February 2020 (2020-02-14) (digital) 20 March 2020 (2020-03-20) (physical)[1] Recorded1995–97StudioLooking Glass, Sony Music (New York City)Genre Art rock industrial rock drum and bass electronica Length28:15LabelParlophoneProducerDavid Bowie, Reeves Gabrels & Mark PlatiDavid Bowie chronology Conversation Piece(2019) Is It Any Wonder?(2020) I'm Only Dancing (The Soul Tour 74)(2...

 

第110屆美國國會第109届 ←→ 第111届美國國會大廈(2007年)2007年1月3日 – 2009年1月3日参议院议长迪克·切尼參議院臨時議長罗伯特·伯德眾議院議長南希·佩洛西議員100名議員435名眾議員5名無票議員參議院多數黨民主党(联盟)眾議院多數黨民主党會議第一次:2007年1月4日 – 2007年12月19日第二次:2008年1月3日 – 2009年1月3日[1] 第110届美国国会(英語:110th Un...

 

Disambiguazione – Se stai cercando la frazione di Pioltello nella città metropolitana di Milano, vedi Seggiano (Pioltello). Seggianocomune Seggiano – Veduta LocalizzazioneStato Italia Regione Toscana Provincia Grosseto AmministrazioneSindacoDaniele Rossi (centro-sinistra) dal 27-5-2019 TerritorioCoordinate42°55′45″N 11°33′30″E42°55′45″N, 11°33′30″E (Seggiano) Altitudine491 m s.l.m. Superficie49,43 km² Abitanti1 011[2 ...

Traditional song This article is about the nursery rhyme. For other uses, see Three Blind Mice (disambiguation). Three Blind MiceSheet musicNursery rhymePublishedc. 1609Songwriter(s)Thomas Ravenscroft Three Blind Mice is an English nursery rhyme and musical round.[1] It has a Roud Folk Song Index number of 3753. Lyrics The modern words are: Three Blind Mice melody Tune for Three Blind Mice. Three Blind Mice round Three Blind Mice round. Problems playing these files? See media help. Th...

 

نيوكاسل يونايتد الاسم الكامل نادي نيوكاسل يونايتد لكرة القدم اللقب الماكبايس تأسس عام 09 ديسمبر 1892 (منذ 131 سنة) الملعب سانت جيمس بارك نيوكاسل أبون تاين إنجلترا، المملكة المتحدة(السعة: 52,305[1]) البلد  إنجلترا الدوري الدوري الإنجليزي الممتاز الإدارة المالك صندوق الاستثم...