Dragon NaturallySpeaking

Nuance Dragon

Basisdaten

Entwickler Nuance Communications
Aktuelle Version 16 (Professional Individual und Group)
(Februar 2023)
Betriebssystem Windows
Kategorie Spracherkennung
Lizenz Proprietär
deutschsprachig ja
https://www.nuance.com/dragon.html

Dragon NaturallySpeaking ist eine Spracherkennungs-Software, die das gesprochene Wort in Text auf dem Bildschirm oder Steuerungsbefehle für den Computer umsetzt. Dragon NaturallySpeaking ist in verschiedenen Ausgaben für private und professionelle Nutzer zu kaufen, unabhängige Anbieter liefern zusätzliche Fachvokabulare. Seit der (nur intern verwendeten) Versionsnummer 14 wird die Bezeichnung „NaturallySpeaking“ vom Hersteller nicht mehr verwendet. Stattdessen erfolgt die Vermarktung unter dem Namen „Dragon“, gefolgt von der Bezeichnung der Edition wie z. B. „Dragon Professional Individual“. Die ähnliche, für das Betriebssystem macOS geschriebene Variante hieß zuletzt „Dragon Professional Individual für Mac“, wird aber seit Oktober 2018 nicht mehr vertrieben.[1] Die Bezeichnung Dragon NaturallySpeaking wird hier zur besseren Abgrenzung zunächst beibehalten.

Anfänge

Die Anfänge des Programms und des ursprünglichen Herstellers beruhen auf einem Prototyp von Software zur Spracherkennung, der Ende der 1970er, Anfang der 1980er Jahre von James und Janet Baker entwickelt worden war, während sie zunächst an der Carnegie Mellon University, später an einem IBM-Forschungszentrum tätig waren.[2] Die Bakers gründeten Dragon Systems im Mai 1982.[3] Vorläufer von Dragon NaturallySpeaking war die Software DragonDictate, die für DOS geschrieben war und noch keine kontinuierliche Spracherkennung ermöglichte. Dragon NaturallySpeaking 1.0 erschien 1997. Im Jahr 2000 wurde das Unternehmen von Lernout & Hauspie übernommen. Aus dessen Insolvenzmasse erwarb 2005 das amerikanische Unternehmen ScanSoft die Rechte daran, welches heute Nuance Communications heißt.

Funktionsweise

Dragon NaturallySpeaking ist eine Software zur Spracherkennung am PC. Die Software setzt Äußerungen, die in ein mit dem Computer verbundenes Mikrofon gesprochen werden, in Text oder Steuerungsbefehle um. Es handelt sich um ein sprecherabhängiges (eine Anpassung an den Nutzer erforderndes) Front-End-System, also eines, bei dem die Umsetzung der Sprache in Text auf dem Rechner des Nutzers erfolgt und unmittelbar nach dem Diktat der Äußerung sichtbar ist („what you say is what you see“). Im Verhältnis etwa zur Spracherkennungsfunktion von Smartphones, bei der die Umsetzung der über das Internet gesendeten akustischen Informationen auf zentralen Servern erfolgt und der Text dann zurück übertragen wird, ergeben sich hierdurch möglicherweise Vorteile bei Geschwindigkeit und Genauigkeit der Umsetzung sowie der Möglichkeit zur Anpassung an Wortschatz und Bedürfnisse des Nutzers. Je nach Version wird von DragonNaturally Speaking auch die Umsetzung zuvor (mit einem Diktiergerät oder einem Aufnahmeprogramm) aufgezeichneter Diktate unterstützt.

Die akustischen Signale werden zur Umsetzung – vereinfacht gesagt – digital abgetastet und im Rahmen eines „akustischen Modells“ nach Charakteristika eingeordnet, die eine ungefähre Zuordnung zu Lauten ermöglichen. Die Auswahl erfolgt statistisch unter Einsatz verschiedener Varianten von Hidden-Markov-Modellen. Ab der Version 15 rühmt sich Dragon, eine neue Spracherkennungsengine unter Einsatz von „Deep Learning“ zu verwenden.[4] Dieses akustische Modell wird bei einem (in aktuellen Versionen nicht mehr nötigen) anfänglichen Training und fortlaufend bei der Benutzung, insbesondere durch die Korrektur von Erkennungsfehlern, an die Stimme des jeweiligen Sprechers angepasst. Zu den „erkannten“ Lauten werden dann statistische Hypothesen über die jeweils am wahrscheinlichsten gesagten Worte angestellt. Bei ähnlich oder gleich klingenden Lauten/Worten entscheidet die Software somit anhand von Mehrwortfolgen innerhalb der Äußerung des Sprechers, welches Ergebnis als Text auf dem Bildschirm erscheint. Grundlage hierfür ist ein Sprachmodell (linguistisches Modell), welches diese Wahrscheinlichkeiten beschreibt. Einzelheiten sind im Artikel zur Spracherkennung näher erläutert. Der Erkennungsvorgang läuft auf aktueller Hardware normalerweise so schnell im Hintergrund ab, dass der gesprochene Text fast sofort nach Beendigung der Äußerung auf dem Bildschirm erscheint.

Im Auslieferungszustand enthält die Software Standard-Sprachmodelle für die jeweilige Eingabesprache, die auf einer Analyse der Wahrscheinlichkeit von Wortfolgen innerhalb eines sehr großen Text-Corpus durch den Hersteller beruhen. Bei der Einrichtung der Software am PC des Nutzers – der Anlage eines Benutzerprofils – kann dieses Standard-Sprachmodell durch die Analyse von vorhandenen Texten des jeweiligen Nutzers an dessen Schreibstil angepasst werden. Dies erfolgt auch fortlaufend während der Benutzung (sogenannte Modelloptimierung). Für diese fortwährende Verbesserung des linguistischen Modells (aber auch für die des akustischen Modells) ist dabei insbesondere die konsequente Korrektur der falsch erkannten Wörter und Wortkombinationen vermittels der entsprechenden Programmfunktionen wichtig. Dragon NaturallySpeaking verwendet bei dem in der älteren Version 11 vorherrschenden Sprachmodell „BestMatch IV“ Zusammenhänge von bis zu vier Wörtern, sogenannte Quadgramme. Ab der Version 12 richtete Dragon auf entsprechend leistungsstarken PCs (Mehrkernprozessoren und Arbeitsspeicher von mehr als 2 GB RAM) Benutzerprofile mit dem Sprachmodell „BestMatch V“ ein, welches Fünfwortfolgen analysieren sollte. Mit der Version 15 wurde das Sprachmodell wieder als „BestMatch IV“ bezeichnet, was im Zusammenhang mit der veränderten Erkennungstechnik stehen soll.

Das Sprachmodell funktioniert ausschließlich nach statistischen Methoden, nicht nach grammatikalischen Regeln. Die Erkennungsgenauigkeit ist aufgrund dieser Funktionsweise am besten, wenn zusammenhängende Äußerungen gesprochen werden, am besten ganze längere Sätze. Dementsprechend ist die Software auf die Erkennung von gut strukturierter Sprache ausgerichtet, wie für Diktate von Briefen, Berichten und sonstigen Sachtexten typisch, nicht aber etwa für die Umsetzung von aufgezeichneten mündlichen Alltagsäußerungen mit vielen Satzbrüchen, Auslassungen und Füllseln, erst recht nicht für die direkte Umsetzung von Gesprächen mehrerer Sprecher in Text.

Das Sprachmodell von Dragon NaturallySpeaking baut auf einem mitgelieferten Vokabular (Wort-Lexikon) auf, welches im Auslieferungszustand ca. 150.000 Wortformen (im aktiven Vordergrundvokabular) enthält. Da die Software keine grammatikalischen Regeln anwendet, sind im Vokabular nicht nur die Wortstämme, sondern alle einzelnen Wortformen hinterlegt. Dieses Vokabular lässt sich nutzerspezifisch durch Analyse eigener Texte auf unbekannte Wörter und Wortformen, aber auch durch die Korrektur bei Erkennungsfehlern um ca. weitere 150.000 Wortformen ergänzen. Um die Geschwindigkeit der Umsetzung in einem akzeptablen Bereich zu halten, ist das Vokabular in verschiedene „Slots“ gegliedert, also ein Vordergrundvokabular und ein Hintergrundvokabular (dessen Größe auf ca. 250.000–300.000 Einträge geschätzt wird). Zum aktiven Zugriff wird nur das Vordergrundvokabular im Arbeitsspeicher gehalten, Wörter aus dem Hintergrundvokabular werden hinzugefügt, nachdem sie einmal verwendet (und dabei fehlerhaft erkannt und dann korrigiert) wurden.

Das Sprachmodell der Software ist auf eine bestimmte Sprache ausgerichtet, das heißt, es ist nicht möglich, mit demselben Benutzerprofil Texte in verschiedenen Eingabesprachen zu diktieren. Um in einer anderen Sprache zu diktieren, muss vielmehr ein entsprechendes gesondertes Benutzerprofil angelegt sein und aufgerufen werden. Die deutsche Version von Dragon NaturallySpeaking ermöglicht die Anlage von Benutzerprofilen in Deutsch und Englisch. Die Software ist auch für Spanisch, Französisch, Italienisch, Niederländisch und Japanisch erhältlich, allerdings nicht in Form einzelner Module, sondern in Form separater Versionen.[5] Gebräuchliche Fremdwörter sind im mitgelieferten Vokabular enthalten; die Hinzufügung und zuverlässige Erkennung weiterer Fremdwörter, deren Aussprache nicht der üblichen Lautung im Deutschen entspricht, kann durch den Benutzer erfolgen, indem solche Wörter mit einer lautmalerischen „gesprochenen Form“ im Lexikon hinterlegt werden (Beispieleinträge: geschriebene Form „breakage“, gesprochene zum Beispiel „brehkitsch“, oder: geschriebene Form „CIA“, gesprochene „Ssie ei äi“).

Der bis zur Version 13 verwendete Name der Software „NaturallySpeaking“ leitet sich von der Eigenschaft einer kontinuierlichen Spracherkennung ab. Anders als bei Spracherkennungssystemen, die bis Mitte der Neunzigerjahre des 20. Jahrhunderts verwendet wurden, und auch noch anders als beim Vorgänger DragonDictate, muss der Sprecher zwischen den einzelnen Wörtern keine unnatürlichen Sprechpausen machen (diskrete Sprache), sondern kann kontinuierlich sprechen. Die Software kann aus den Lautfolgen die (wahrscheinlichen) Wortgrenzen anhand der beschriebenen Methoden selbst ermitteln. Gleichwohl ist eine strukturierte, deutliche (aber nicht übertrieben artikulierte) und flüssige Sprechweise der beste Erfolgsgarant (der Hersteller empfiehlt, sich an der Sprechweise von Nachrichtensprechern zu orientieren).

Systemanforderungen und Features

Dragon NaturallySpeaking läuft unter dem Betriebssystem Windows ab Windows XP, unter 64-bit-Windows ab der Version 10.1. Für macOS vertrieb Nuance bis September 2018 eine auf demselben Spracherkennungskern aufbauende Software, die bis zur Version 4 auf den Namen Dragon Dictate hörte, aber nicht mit dem oben genannten Vorläufer von Dragon NaturallySpeaking zu verwechseln ist und in der letzten verfügbaren Version 6 „Dragon Professional Individual für Mac“ genannt wurde. Diese macOS-Fassung bleibt in der Funktionalität von Korrekturen und Steuerungsmöglichkeiten für den Computer hinter den Windows-Versionen von Dragon zurück. Vertrieb und Unterstützung der macOS-Version wurden von Nuance im Oktober 2018 eingestellt[1]

Dragon NaturallySpeaking läuft nicht nativ auf Betriebssystemen mit Linux-Kern (z. B. Ubuntu, Red Hat, openSuSE etc.).[6] Das API-Übersetzungssystem Wine ermöglicht aber einen stabilen Einsatz der Kernkomponenten einiger Versionen – vorausgesetzt, eine manuell angepasste Installation wurde von einem erfahrenen Linux-Nutzer durchgeführt, die Möglichkeit zur Steuerung von nativen Programmen ist allerdings nicht gegeben, ebenfalls in Wine laufende Programme wie das Wine-Wordpad-Clon oder das DragonPad sowie die automatische Verschriftlichung von MP3-Dateien funktionieren aber problemlos.[7] Es wäre auch denkbar, die Windows-Version von z. B. LibreOffice und Firefox unter Wine durchzuführen, um diese dann mit Dragon steuern zu können.

Ab der Version 11 setzt NaturallySpeaking auf Mehrkern-Prozessoren eine Multipass-Technik ein, bei welcher die gleiche Äußerung parallel auf zwei Prozessorkernen analysiert und die wahrscheinlichste Äußerung unter Einsatz jeweils unterschiedlicher Hidden-Markov-Modelle ermittelt wird, um auf diese Weise die Zuverlässigkeit zu erhöhen. Um genügend Rechner-Kapazität für andere Aufgaben, insbesondere die Ziel-Anwendungen, in die hinein diktiert wird, zu behalten, empfiehlt sich daher der Einsatz auf modernen Prozessoren. Prozessor und Größe des Arbeitsspeichers sowie ein ausreichend großer 2nd bzw. 3rd Level Cache haben auch erheblichen Einfluss auf die Geschwindigkeit der Umsetzung. Bei einem leistungsfähigen aktuellen PC erscheint der Text zumeist unmittelbar, nachdem eine Äußerung ausgesprochen ist.

Obwohl das Programm relativ hohe Anforderungen an die Größe des Arbeitsspeichers und die Kapazität des Prozessors stellt, ist die Benutzeroberfläche eine unauffällige „Dragon-Leiste“, die auch ganz ausgeblendet werden kann. Das Konzept geht dahin, dass der Benutzer direkt in Ziel-Anwendungen wie Textverarbeitungsprogramme diktiert, in denen dann der gesprochene Text ohne Tastatureingabe erscheint. Ebenso können kompatible Anwendungsprogramme durch gesprochene Befehle gesteuert werden (z. B. Speichern oder Drucken von Dokumenten, Formatierungen); diese Funktionen werden nicht zuletzt von Benutzern mit Bewegungseinschränkungen geschätzt. Zur Kommunikation mit Anwendungsprogrammen greift Dragon NaturallySpeaking auf die MSAA (Microsoft Active Accessibility)-Schnittstelle und die Microsoft-Sprachanwendungsschnittstelle SAPI 4 (nicht die Nachfolgeversion 5) zurück. Der volle Befehlssatz zur Steuerung von Anwendungen steht daher nur in entsprechend kompatiblen Anwendungsprogrammen wie Microsoft Word (Version 2013 ist erst ab NaturallySpeaking 12.5 kompatibel, Version 2016 ab Dragon Professional Individual bzw. 14) oder Internet Explorer zur Verfügung, in der Software als „Standardfenster“ oder „Fenster mit voller Textkontrolle“ bezeichnet (in früheren Versionen auch als Select-and-Say). Andere Software wie OpenOffice Writer, Mozilla Firefox oder Mozilla Thunderbird werden teilweise unterstützt. Browser-basierte Cloud-Anwendungen wie Outlook.com werden nur teilweise unterstützt, nicht z. B. die Microsoft Office Web Apps.

Dragon NaturallySpeaking verfügt auch über ein eigenes einfaches Textverarbeitungsprogramm „DragonPad“, welches funktional Microsoft WordPad ähnelt, sowie über ein Diktierfenster, welches zum Transfer von diktiertem Text in nicht kompatible Zielanwendungen benutzt werden kann. Neben kompatiblen Anwendungsprogrammen kann man mit Dragon NaturallySpeaking die Windows-Oberfläche mit Sprachbefehlen steuern (im Startbildschirm von Windows 8 nur eingeschränkt).

Erkennungsgenauigkeit

Die Software setzt ein anfängliches, etwa fünfminütiges Sprechertraining voraus, welches ab Version 9 aber auch übersprungen werden kann, sowie möglichst eine Analyse eigener Texte des Sprechers. Die Erkennungsrate liegt bei einem gut eintrainierten Profil je nach Qualität der Hardware und Deutlichkeit der Sprechweise derzeit bei mehr als 98 Prozent. Auch durch die Verwendung eines besseren als des vom Hersteller mitgelieferten Mikrofons kann die Erkennungsgenauigkeit positiv beeinflusst werden.

Traditionell galt: Je eher ein begrenztes Fachvokabular zum Einsatz kommt (etwa bei Ärzten oder Anwälten), umso besser die Erkennungsrate. Aufgrund der Steigerung der Leistungsfähigkeit des Programms und der Hardware besteht bei den aktuellen Versionen praktisch nicht mehr die Notwendigkeit, für bestimmte Fachgebiete jeweils eigene Vokabulare einzusetzen. Jedoch gilt nach wie vor, dass im Vokabular nicht bereits vorhandene Wörter auch nicht richtig erkannt werden können.

Eine Ausnahme bildet (in der deutschen Version) die Funktion zur automatischen Bildung von Komposita. Typische Bestandteile von zusammengesetzten Wörtern sind im Vokabular zusätzlich mit Merkmalen versehen, wonach sie mit anderen Wörtern zu Komposita (ggf. mit Fugen-s) zusammengezogen werden, wenn diese unmittelbar davor oder danach diktiert werden. Auch diese Funktion ist statistisch gesteuert und liefert daher zuweilen auch falsche Komposita, z. B. bei „Zusammengesetztenwörtern“.

Solche Fälle gehören zu den wenigen, in denen Erkennungsfehler von einer Rechtschreibprüfung in der Zielanwendung bemerkt werden – im Gegensatz zu falsch erkannten Wörtern wie in dem (fiktiven) Beispiel: „Der Auszubildende ging in die Leere“. Ein Korrekturlesen von mittels Spracherkennung diktierten Texten ist daher empfehlenswert, worauf der Hersteller in der Lizenzvereinbarung ausdrücklich hinweist.

Versionen

Legende: Alte Version Ältere Version; noch unterstützt Aktuelle Version Aktuelle Vorabversion Zukünftige Version
Version Veröffentlichung Editionen
Ältere Version; nicht mehr unterstützt: 1.0 Juni 1997 Personal
Ältere Version; nicht mehr unterstützt: 2.0 November 1997 Standard, Preferred, Deluxe
Ältere Version; nicht mehr unterstützt: 3.0 Oktober 1998 Point & Speak, Standard, Preferred, Professional (optionale Legal oder Medical Add-ons)
Ältere Version; nicht mehr unterstützt: 4.0 4. August 1999 Essentials, Standard, Preferred, Professional, Legal, Medical, Mobile
Ältere Version; nicht mehr unterstützt: 5.0 August 2000 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 6.0 15. November 2001 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 7.0 März 2003 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 8.0 November 2004 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 9.0 Juli 2006 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 9.5 Januar 2007 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 10.0 7. August 2008 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 10.1 März 2009 Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 11.0 24. August 2010 Home, Premium, Professional, Legal
Ältere Version; nicht mehr unterstützt: 11.0 März 2011 Medical
Ältere Version; nicht mehr unterstützt: 11.5 Juni 2011 Premium
Ältere Version; nicht mehr unterstützt: 11.5 Juli 2011 Home, Professional, Legal
Ältere Version; nicht mehr unterstützt: 12.0 August 2012 Home, Premium
Ältere Version; nicht mehr unterstützt: 12.0 September 2012 Professional, Legal
Ältere Version; nicht mehr unterstützt: 12.0 Dezember 2012 Medical Practice
Ältere Version; nicht mehr unterstützt: 12.5 Februar 2013 Home, Premium, Professional, Legal
Ältere Version; nicht mehr unterstützt: 13.0 August 2014 Home, Premium
Ältere Version; nicht mehr unterstützt: 13.0 Oktober 2014 Professional, Legal
Ältere Version; nicht mehr unterstützt: 14.0 September 2015 Professional Individual, Group
Ältere Version; nicht mehr unterstützt: 14.0 April 2016 Professional Group, Legal Group, Legal Individual
Ältere Version; nicht mehr unterstützt: 15.0 Oktober 2016 Professional Individual
Ältere Version; nicht mehr unterstützt: 15.0 Mai 2017 Professional Group
Ältere Version; nicht mehr unterstützt: 15.1 November 2017 Professional Group, Legal Group (jeweils nur Volumenlizenzierung (VLA))
Ältere Version; nicht mehr unterstützt: 15.3 Februar 2018 Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.4 April 2019 Professional Group, Legal Group (jeweils nur Volumenlizenzierung (VLA))
Ältere Version; nicht mehr unterstützt: 15.5 November 2019 Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.6 Juli 2020 Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.61 Dezember 2020 Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.7.1 September 2021 Professional Group, Legal Group
Aktuelle Version: 16 März 2023 Professional, Legal
2020.1 bis 4 Januar 2020 Professional Anywhere, Legal Anywhere, Medical One
2021.1 bis 4 Januar 2021 Professional Anywhere, Legal Anywhere, Medical One

Einzelnachweise

  1. a b Dragon Professional Individual for Mac End of Life (Memento vom 7. November 2020 im Internet Archive)
  2. Geschichte von Dragon Systems (englisch), aufgerufen am 2. Juli 2011
  3. „Speechless“ (Porträt über Janet McIver Baker), Tufts University Magazine, Herbst 2012 (englisch), aufgerufen am 6. Oktober 2012
  4. Dragon Professional 16 übertrifft alle Erwartungen – und ist besser als je zuvor
  5. Verzeichnis der Sprachversionen auf der Herstellerseite (englisch), aufgerufen am 23. Februar 2013
  6. Frequently Asked Questions. Nuance, archiviert vom Original am 6. August 2015; abgerufen am 11. August 2015 (englisch).
  7. WineHQ – Dragon Naturally Speaking 12.5. Abgerufen am 3. März 2021.