Sprechpausenerkennung

Sprechpausenerkennung (englisch voice activity detection, VAD) ist eine in der Sprachverarbeitung genutzte Technik, bei der die An- oder Abwesenheit menschlicher Stimme erkannt wird.[1] Die Hauptverwendungszwecke für Sprechpausenerkennung liegen in den Bereichen der Sprachkodierung und Spracherkennung. Es kann die Sprachverarbeitung erleichtern und kann genutzt werden, um manche Vorgänge während einer Sprechpause zu deaktivieren: Es kann unnötige Kodierung und Übertragung von inhaltsleeren Datenpaketen in IP-Telefonieanwendungen vermeiden und so Rechenleistung und Übertragungskapazität einsparen.

Sprechpausenerkennung ist eine Schlüsseltechnik für eine Vielzahl Sprach-basierter Anwendungen. Daher wurden verschiedene Algorithmen entwickelt, die unterschiedliche Merkmale aufweisen und eine Abwägung zwischen Latenz, Empfindlichkeit, Präzision und Berechnungsaufwand darstellen. Manche Algorithmen liefern auch weitere Analysedaten, zum Beispiel ob die Sprache stimmhaft, stimmlos oder ausgehalten ist. Sprechpausenerkennung ist üblicherweise unabhängig von der Sprache.

Erstmals untersucht wurde sie zur Verwendung in Systemen für zeitzugeordnete Sprachinterpolation (ZSI).

Algorithmus

Der typische Entwurf eines VAD-Algorithmus ist folgendermaßen:[1]

  1. Das Erste kann ein Schritt zur Rauschreduktion sein, zum Beispiel durch spektrale Subtraktion.
  2. Dann werden manche Merkmale oder Größen für einen Abschnitt des Eingangssignales berechnet.
  3. Es wird eine Klassifikationsregel angewandt, um den Signalabschnitt als Sprache oder als Sprechpause einzuordnen – oft prüft das Klassifikationsverfahren, ob ein Wert einen Schwellwert überschreitet.

In dieser Abfolge kann es Rückkopplungen geben, in der die Entscheidung der Sprechpausenerkennung genutzt wird, um die Störgeräuscherkennung anzupassen oder die/den Schwellwert(e) dynamisch anzupassen. Diese Rückkopplungsmechanismen verbessern die Erkennungsleistung bei veränderlichen Störgeräuschen.[1]

Ein repräsentativer Satz kürzlich veröffentlichter Sprechpausenerkennungsmethoden bestimmt die Entscheidungsregel von Block zu Block unter Verwendung fortlaufend gemessener Abweichungsabstand zwischen Sprache und Störgeräusch. Die unterschiedlichen Messgrößen, die bei der Sprechpausenerkennung genutzt werden, umfassen Abfall der Spektralverteilungskurve, Korrelationskoeffizienten, logarithmischer Wahrscheinlichkeits-Quotient, Cepstrum-, gewichtete Cepstrum- und modifizierte Abstandsmaße.

Unabhängig von der Wahl des Pausenerkennungsalgorithmus muss abgewägt werden zwischen der Erkennung von Störgeräuschen als Sprache oder Sprache als Störgeräusch (zwischen falsch positiv und falsch negativ). Eine in einem Mobiltelefon betriebene Sprechpausenerkennung muss Sprachsignale unter Anwesenheit einer Palette sehr unterschiedlicher Arten akustischer Hintergrundgeräusche erkennen können. Unter diesen schwierigen Erkennungsbedingungen ist es oft wünschenswert, eine konservative Pausenerkennung zu haben, die im Zweifelsfall als Sprachsignal kategorisiert, um die Gefahr verlorener Sprachabschnitte zu mindern. Die größte Schwierigkeit bei der Erkennung der Sprachabschnitte in dieser Umgebung sind die geringen anzutreffenden Rauschabstände. Wenn Teile der Sprachäußerungen in Störgeräuschen untergehen, kann eine Unterscheidung zwischen Sprache und Störgeräuschen aufgrund einfacher Pegelbestimmung unmöglich sein.

Anwendungen

Bei einer breiten Palette von Anwendungen wie digitalem Sprechfunk, Digital Simultaneous Voice and Data (DSVD) oder Sprachaufzeichnungen ist es wünschenswert, eine unterbrochene Übertragung von Sprachkodierungsparametern. Vorteile können niedrigerer durchschnittlicher Energiebedarf in Mobilgeräten, höhere durchschnittliche Bitrate für gleichzeitige Dienste wie Datenübertragung oder höhere Kapazität auf Speicher-Chips sein. Allerdings sind die Vorteile abhängig vom Anteil von Pausen in Gesprächen und der Zuverlässigkeit der eingesetzten Sprechpausenerkennung. Einerseits ist es vorteilhaft, einen geringen Anteil von Sprachabschnitten zu haben. Andererseits sollten Einschnitte in Sprachabschnitte, also der Verlust von Sprachabschnitten, minimiert werden, um Qualität zu erhalten. Das ist das entscheidende Problem für einen Sprechpausenerkennungsalgorithmus unter der Bedingung starker Störgeräusche.

Nutzung im Telefonverkauf

Eine umstrittene Anwendung von Sprechpausenerkennung ist in Verbindung mit von Telefonverkaufsfirmen verwendeten Predictive Dialern. Um die Produktivität der Agenten zu maximieren, richten Telefonverkaufsfirmen Predictive Dialer ein, um mehr Nummern anzurufen, als Agenten verfügbar sind, in dem Wissen, dass die meisten Anrufe unbeantwortet oder bei Anrufbeantwortern enden. Wenn eine Person annimmt, so sprechen sie meist kurz („Hallo“, „Guten Abend“ etc.) und dann folgt ein Zeitraum der Stille. Anrufbeantworteransagen enthalten üblicherweise 3 bis 15 Sekunden an kontinuierlichem Sprachfluss. Mit korrekt gewählten Sprechpausenerkennungsparametern können Dialer bestimmen, ob eine Person oder ein Anrufbeantworter den Ruf angenommen hat und wenn es eine Person ist, den Anruf an einen verfügbaren Agenten übergeben. Wenn ein Anrufbeantworter erkannt wurde, so hängt der Dialer auf. Oft erkennt das System korrektermaßen die Annahme durch eine Person, wobei kein Agent verfügbar ist.

Leistungsbewertung

Um eine Sprechpausenerkennungsmethode zu bewerten, wird seine Ausgabe anhand von Testaufnahmen mit den Ergebnissen einer „idealen“ Sprechpausenerkennung verglichen – erstellt durch manuelle Feststellung der An- und Abwesenheit von Sprache in den Aufnahmen. Die Leistung einer Sprechpausenerkennung wird üblicherweise anhand der folgenden vier Parameter untersucht:[2]

  • FEC (Front End Clipping): angeschnittener Sprachabschnitt beim Übergang von Störgeräusch zu Sprachinhalt;
  • MSC (Mid Speech Clipping): unterbrochener Sprachabschnitt durch Fehlklassifizierung von Sprachinhalt als Störgeräusch;
  • OVER: als Sprachinhalt interpretierte Störgeräusche durch andauernden Sprechpausen-Status nach dem Übergang von Sprache zu Störgeräuschen;
  • NDS (Noise Detected as Speech): Störgeräusche während einer Stilleperiode werden als Sprachsignal interpretiert.

Trotzdem die oben beschriebene Methode nützliche objektive Informationen zur Leistung einer Sprechpausenerkennung liefert, ist sie nur ein näherungsweises Maß für die subjektive Auswirkung. Beispielsweise können die Auswirkungen angeschnittener Sprachabschnitte abhängig von der Art des gewählten Komfortrauschgenerators manchmal durch die Anwesenheit von Hintergrundgeräuschen verdeckt sein, wodurch manche mit objektiven Tests gemessene Einschnitte in Sprachabschnitte eigentlich nicht wahrnehmbar sind. Daher ist es wichtig, Sprechpausenerkennungen subjektiven Tests zu unterziehen, hauptsächlich um die Annehmbarkeit der wahrgenommenen Einschnitte sicherzustellen. Diese Art von Tests erfordert von einer gewissen Anzahl von Hörern die Bewertung von Aufnahmen mit den Erkennungsergebnissen der zu testenden Verfahren. Die Hörer müssen die folgenden Merkmale bewerten:

  • Qualität;
  • Verständlichkeit;
  • Hörbarkeit von Einschnitten.

Diese durch das Anhören einiger Sprachsequenzen erhaltenen Bewertungen werden dann benutzt, um Durchschnittsergebnisse für die einzelnen oben aufgezählten Merkmale zu berechnen und dadurch eine allgemeine Einschätzung des Verhaltens der getesteten Sprechpausenerkennung zu erhalten. Während also objektive Methoden in einem anfänglichen Entwicklungsstadium sehr nützlich sind um die Qualität einer Sprechpausenerkennung zu prüfen, sind subjektive Methoden aussagekräftiger. Da sie jedoch teurer sind (weil sie die Teilnahme einer gewissen Anzahl von Leuten über einige Tage erfordern), werden sie allgemein nur genutzt, wenn sich ein Vorschlag in der Standardisierung befindet.

Implementierungen

  • Eine frühe standardisierte Sprechpausenerkennung ist die 1991 von British Telecom für die Nutzung in dem europaweiten digitalen Mobilfunknetzwerk entwickelte Methode. Es benutzt anhand von Sprechpausenabschnitten trainiertes inverses Filtern, um Hintergrundgeräusche auszufiltern und danach zuverlässiger anhand eines einfachen Pegelschwellwertes zu entscheiden, ob eine Stimme anwesend ist.[3]
  • Der G.729-Standard berechnet die folgenden Merkmale für seine Sprechpausenerkennung: Line Spectral Frequencies, gesamte Bandenergie, unterer Teil der Bandenergie (<1 kHz) und Nulldurchgangsrate. Es setzt eine einfache Klassifizierung ein mit einer festen Entscheidungsschwelle in dem Raum, den diese Merkmale definieren, und nimmt anschließend Glättungen und dynamische Korrekturen an dieser Schätzung vor.[4]
  • Der GSM-Standard enthält zwei vom ETSI entwickelte Möglichkeiten zur Sprechpausenerkennung.[5] Die erste Möglichkeit berechnet den Störabstand in neun Frequenzbändern und wendet einen Schwellwert auf diese Werte an. Die zweite Möglichkeit berechnet unterschiedliche Parameter: Energiedichte des Kanals, Messparameter von der Stimme und Energiedichte der Störgeräusche. Es wendet dann einen Schwellwert auf die Sprachsignalparameter an, der mit dem geschätzten Störabstand verändert wird.
  • Die Speex-Audio-Kompressorbibliothek nutzt eine als Improved Minima Controlled Recursive Averaging benannte Prozedur, die eine geglättete Darstellung der spektralen Energieverteilung nutzt und dann nach den Minima eines geglätteten Periodogramm sucht.[6] Ab Version 1.2 wurde es nach Aussage des Autors durch eine Pfuschlösung (englisches Original: „kludge“) ersetzt.[7]

Siehe auch

Literatur

  • DMA minimum performance standards for discontinuous transmission operation of mobile stations TIA doc. and database IS-727. Juni 1998.
  • M. Y. Appiah, M. Sasikath, R. Makrickaite & M. Gusaite: Robust Voice Activity Detection and Noise Reduction Mechanism Using Higher-Order Statistics. 2005, doi:10.1109/ICPR.2010.28 (auc.dk [PDF] Institute of Electronics Systems, Aalborg University).
  • Xianglong Liu, Yuan Liang, Yihua Lou, He Li & Baosong Shan: Noise-Robust Voice Activity Detector Based on Hidden Semi-Markov Models. In: 2010 20th International Conference on Pattern Recognition (ICPR). IEEE, 2010, ISBN 978-1-4244-7542-1, S. 81–84, doi:10.1109/ICPR.2010.28 (edu.cn [PDF]).

Fußnoten

  1. a b c J. Ramírez, J. M. Górriz & J. C. Segura: Voice Activity Detection. Fundamentals and Speech Recognition System Robustness. In: M. Grimm & K. Kroschel (Hrsg.): Robust Speech Recognition and Understanding. 2007, ISBN 978-3-902613-08-0, S. 1–22 (i-techonline.com [PDF]).
  2. F. Beritelli, S. Casale, G. Ruggeri & S. Serrano: Performance evaluation and comparison of G.729/AMR/fuzzy voice activity detectors. In: IEEE Signal Processing Letters. Band 9, Nr. 3, März 2002, S. 85–88, doi:10.1109/97.995824.
  3. D. K. Freeman, G. Cosier, C. B. Southcott & I. Boyd: The voice activity detector for the Pan-European digital cellular mobile telephone service. In: 1989 International Conference on Acoustics, Speech, and Signal Processing (ICASSP-89). Band 1, Mai 1989, S. 369–372, doi:10.1109/ICASSP.1989.266442.
  4. A. Benyassine, E. Shlomot, H.-Y. Su, D. Massaloux, C. Lamblin & J.-P. Petit: ITU-T Recommendation G.729 Annex B: a silence compression schemefor use with G.729 optimized for V.70 digital simultaneous voice and data applications. In: IEEE Communications Magazine. Band 35, Nr. 9, September 1997, S. 64–73, doi:10.1109/35.620527.
  5. ETSI: Digital cellular telecommunications system (Phase 2+); Half rate speech; Voice Activity Detector (VAD) for half rate speech traffic channels (GSM 06.42 version = 8.0.1). 1999.
  6. I. Cohen: Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging. In: IEEE Transactions on Speech and Audio Processing. Band 11, Nr. 5, September 2003, S. 466–475, doi:10.1109/TSA.2003.811544.
  7. Jean-Marc Valin: preprocess.c. In: Quellcode von Speex, Version 1.2beta2. Xiph.org, abgerufen am 17. Januar 2012 (englisch): „FIXME: This VAD is a kludge“

Read other articles:

Registration plates of motor vehicles in the United Kingdom British number plates redirects here. For Northern Ireland, see Vehicle registration plates of Northern Ireland. For British territories outside the United Kingdom, see Vehicle registration plates of the United Kingdom, Crown dependencies and overseas territories. Great BritainUK regular legal standard front (top) and rear (bottom) number plates. The national identifier on the UK's number plates is optional. Number plates including t...

 

 

Artikel ini bukan mengenai Daftar kabupaten dan kota di Papua. Peta Provinsi Papua Barat Provinsi Papua Barat memiliki 7 kabupaten dan tidak mempunyai kota dengan ibukota terletak di Manokwari. Berikut adalah daftar kabupaten di Papua Barat No. Kabupaten Ibu kota Bupati Luas wilayah (km²)[1] Jumlah penduduk (2020) Distrik Kelurahan/kampung Lambang Peta lokasi 1 Kabupaten Fakfak Fakfak Untung Tamsil 14.320,00 85.197 17 7/142 2 Kabupaten Kaimana Kaimana Freddy Thie 16.241,84 62.256 7 2...

 

 

Partizan NISJulukanParni Valjak Crno-BeliLigaLiga Bola Basket SerbiaLiga ABADibentuk1945SejarahKK Partizan(1945–sekarang)ArenaBalai Aleksandar NikolićKapasitas5.878[1]LetakBeograd, SerbiaWarna timHitam dan putih   Sponsor utamaNaftna Industrija SrbijePresidenOstoja MijailovićJuara1 EuroLeague3 Piala Korać6 Liga ABA21 Kejuaraan Nasional14 Piala NasionalSitus webwww.kkpartizan.rs Kandang Tandang Košarkaški klub Partizan (bahasa Serbia: Кошаркашки клуб ...

Pour les articles homonymes, voir Saint-Paul. Saint-Paul Vue sur le centre-ville et la baie de Saint-Paul. Blason Administration Pays France Région La Réunion Département La Réunion (sous-préfecture) Arrondissement Saint-Paul (chef-lieu) Intercommunalité Territoire de la Côte Ouest Maire Mandat Emmanuel Séraphin (PLR) 2021-2026 Code postal 97460, 97411, 97422, 97423, 97434 et 97435 Code commune 97415 Démographie Gentilé Saint-Paulois Populationmunicipale 105 240 hab. (202...

 

 

Australian neuroscientist and academic ProfessorIan ChubbACChubb at the opening session of the 2009 Climate Congress, Copenhagen.BornIan William Chubb (1943-10-17) 17 October 1943 (age 80)Melbourne, Victoria, AustraliaNationalityAustralianAlma materUniversity of Oxford,University of Ghent (Belgium)AwardsOfficer of the Order of Australia (1999),Companion of the Order of Australia (2006),ACT Australian of the Year (2011)Scientific careerFieldsNeuroscienceInstitutionsWollongong (1986�...

 

 

Questa voce sull'argomento calciatori ungheresi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Ferenc Machos Nazionalità  Ungheria Calcio Ruolo Attaccante Termine carriera 1965 Carriera Squadre di club1 1950-1952 Tatabánya? (?)1953 Szegedi Honvéd? (?)1954-1959 Honvéd95 (59)1960-1965 Vasas105 (59) Nazionale 1955-1963 Ungheria29 (14) Carriera da allenatore 1970-1972 Vas...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Big Brother (Australian TV series) season 5 – news · newspapers · books · scholar · JSTOR (May 2020) (Learn how and when to remove this template message) Season of television series Big BrotherSeason 5Presented byGretel KilleenNo. of days100No. of housemates20...

 

 

Toronto municipal expressway Gardiner ExpresswayFrederick G. Gardiner ExpresswayGardiner Expressway highlighted in redRoute informationMaintained by City of TorontoLength18 km[1] (11 mi)History Proposed 1947 and originally named as Lakeshore Expressway until August 1957 when it took its current name. Opened August 8, 1958 – April 1, 1997 Major junctionsWest end  Highway 427 / Queen Elizabeth WayEast end Don Valley Parkway LocationCountryC...

 

 

Cet article est une ébauche concernant une localité indonésienne. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. DenpasarGéographiePays  IndonésieProvince province de Bali (capitale)Superficie 127,78 km2Subdivisions Denpasar Barat (d)Denpasar Selatan (d)Denpasar Timur (d)Denpasar Utara (d)Altitude 4 m, 34 mCoordonnées 8° 39′ 00″ S, 115° 13′ 00″ EDémographiePop...

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

 

 

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2023) المنطقة الدبلوماسية المنطقة الدبلوماسية منطقة الاسم الرسمي المنطقة الدبلوماسية (البحرين) الإحداثيات 26°14�...

 

 

Kementrian SihirAsosiasi Harry PotterMarkas BesarLondonPemimpinMenteri SihirMusuhOrde Phoenix (pada buku kelima dan ketujuh), Laskar Dumbledore (pada buku kelima dan ketujuh), Pelahap MautPertama disebutHarry Potter and the Philosopher's StonePertama tampilHarry Potter and the Order of the Phoenix Kementrian Sihir adalah pemerintahan fiksi di seri Harry Potter. Pertama disebut pada Harry Potter and the Philosopher's Stone, tetapi penampilan pertama pada Harry Potter and the Order of...

Olympic gymnastics event Men's team parallel barsat the Games of the I OlympiadGerman team at parallel barsVenuePanathinaiko StadiumDate9 April 1896Competitors63 from 2 nationsMedalists Germany Germany Panellinios Gymnastikos Syllogos Greece Ethnikos Gymnastikos Syllogos Greece Gymnastics at the1896 Summer OlympicsVaultmenPommel horsemenRingsmenParallel barsmenHorizontal barmenRope climbingmenTeam parallel barsmenTeam horizontal barmenvte The men's team parallel bars ...

 

 

La librairie 3i4 à l'OCCC Tres i Quatre (3i4) est une librairie et maison d'édition de Valence (Espagne), connue pour être l'un des pôles des cultures valencienne et catalane dans la Communauté valencienne. Présentation Fondée en 1968 par Eliseu Climent, elle devint un centre de réunions clandestines et de mouvements sociaux et syndicaux de la dernière étape du franquisme[1]. Parmi les artistes et intellectuels qui la fréquentèrent on peut citer Joan Fuster, Vicent Andrés Estell...

 

 

  لمعانٍ أخرى، طالع جون موريس (توضيح). جون موريس معلومات شخصية تاريخ الميلاد 8 يونيو 1913   الوفاة 1 يونيو 1977 (63 سنة)   لندن  مواطنة المملكة المتحدة  الحياة العملية المواضيع الإمبراطورية الرومانية،  وبريطانيا الرومانية  المدرسة الأم كلية يسوع  المهنة مؤرخ�...

Ruza WenclawskaWenclawska di New York City, sekitar tahun 1916LahirRuza Wenclawska(1889-12-15)15 Desember 1889Suwałki, PolandiaMeninggal1977 (umur 87–88)KebangsaanPolandia-AmerikaNama lain Rose Winslow Rose Lyons Pekerjaan Suffragis Inspektur pabrik Pembentuk serikat dagang Pemeran Penyair Gadis toko Gadis pabrik Suami/istriPhilip Lyons Ruza Wenclawska (15 Desember 1889 – 1977), juga dikenal sebagai Rose Winslow dan kemudian sebagai Rose Lyons melalui perkawinan, adalah se...

 

 

Demofonte (?) liberando a Etra, kílix ático de fondo blanco, 470-460 a. C., Staatliche Antikensammlungen (Inv. 2687). En la mitología griega, Demofonte (en griego antiguo, Δημοφόων Dêmophóôn) fue el duodécimo de los reyes de Atenas. Era hijo de Teseo y de Fedra, hermano de Acamante. Participó en la guerra de Troya al lado de su predecesor Menesteo, y fue uno de los guerreros encerrados en el Caballo de Troya. Después de la guerra, obtuvo de Agamenón la liberación ...

 

 

2020 studio album by LiturgyOrigin of the AlimoniesStudio album by LiturgyReleasedNovember 20, 2020 (2020-11-20)RecordedAugust 2019StudioMachines With Magnets, ProvidenceMetropolis Mastering, ChicagoGenre Black metal avant-garde metal opera Length37:15LabelYLYLCYNProducerHaela Hunt-HendrixLiturgy chronology H.A.Q.Q.(2019) Origin of the Alimonies(2020) 93696(2023) Professional ratingsAggregate scoresSourceRatingMetacritic83/100[1]Review scoresSourceRatingClash9/...

カンヌ国際映画祭 クィア・パルム (La Queer Palm) は、カンヌ国際映画祭の独立賞のひとつ。LGBTQに関連した映画に与えられる[1]。 概要 ジャーナリストのフランク・フィナンス・マデュレイラによって2010年に創設され、第63回カンヌ国際映画祭から授与されている。 公式部門とは別に独立した審査員が組織され、映画監督や俳優、ジャーナリストや大学教授、各国の�...

 

 

1958 novel by George O. Smith Path of Unreason Dust-jacket from the first edition.AuthorGeorge O. SmithCover artistW.I. van der PoelLanguageEnglishGenreScience fictionPublisherGnome PressPublication date1958Publication placeUnited StatesMedia typePrint (Hardback)Pages171OCLC10795113 Path of Unreason is a science fiction novel by American writer George O. Smith. It was published in 1958 by Gnome Press in an edition of 5,000 copies, of which only 3,000 were bound. The novel is an expa...