Das Wiktionary (IPA:[ˈvɪkʃəˌnɛʀi] ; GenitivSingularWiktionary, seltener Wiktionarys, PluralWiktionaries[1]) (Wikiwörterbuch) ist ein gemeinschaftliches Projekt der Wikimedia Foundation zur Erstellung eines frei zugänglichen, mehrsprachigen Wörterbuches sowie eines entsprechenden Thesaurus in jeder Sprache. Der Name Wiktionary ist ein analog zu Wikipedia gebildetes Kofferwort, das sich aus den Wörtern wiki (hawaiisch für „schnell“)[2] und dictionary (englisch für „Wörterbuch“) zusammensetzt. Seit der Gründung 2002 wuchs die Anzahl der Einträge in den Wiktionarys international auf über 48,5 Millionen an (Stand 3. Juli 2024).[3]
Das Wiktionary ist ein Partner der freien Online-EnzyklopädieWikipedia. Analog zu den verschiedenen Sprachausgaben der Wikipedia gibt es Wiktionarys in unterschiedlichen Sprachen. Während die Wikipedia als Enzyklopädie Sachinformationen zu den Begriffen zur Verfügung stellt, übernimmt das Wiktionary die Funktionen eines Sprachwörterbuchs und eines Thesaurus und dient der Vermittlung sprachlichen Wissens. Als Sprachwörterbuch soll es sprachliche Eigenschaften wie Homonyme, Bedeutung, Grammatik, Etymologie und Übersetzungen erklären; die Auswahl der Lemmata soll den Wortschatz der Sprachen abdecken. Als (linguistischer) Thesaurus werden zum Worteintrag assoziierte Begriffe wie Synonyme und Oberbegriffe zusammengestellt. Wie die Wikipedias werden die Wiktionarys laufend erweitert und verbessert; jeder kann jederzeit mitarbeiten.
Im Gegensatz zu den üblichen gedruckten, meist zweisprachigen Sprachwörterbüchern ist das Konzept der Wiktionarys so offen angelegt, dass in jeder einzelnen Sprachversion Lemmata zu Einträgen in „allen“ Sprachen erwünscht sind. In einer theoretischen Endausbaustufe besäße jedes Sprach-Wiktionary den Wortschatz „aller“ Fremdsprachen, erklärt in der Grundsprache des jeweiligen Wiktionarys sowie zusätzlich alle Einträge aus dem Wortschatz der eigenen Sprache inklusive Übersetzungen in alle Fremdsprachen.[4]
Einer Aussage beim Wikimedia-Projekt Meta zufolge wurde die Idee zur Erstellung des Wiktionarys erstmals im Jahr 2002 von Daniel Alston (mit dem Benutzernamen Fonzy) vorgebracht.[5] Einer anderen Auffassung nach hatte die Idee dazu Larry Sanger im April 2001.[6]
Als erstes Wiktionary wurde am 12. Dezember 2002 die englische Version begonnen. Die deutsche Version, das Wikiwörterbuch, startete am 1. Mai 2004. Der 100.000ste Eintrag dieses Projektes wurde im Dezember 2009 und der 500.000ste im April 2016 erstellt. Am 20. August 2021 wurde die 1.000.000-Marke erreicht.[7]
In vielen Wiktionarys werden für Groß-/Kleinschreibung mit gleicher Buchstabenfolge getrennte Einträge generiert (Beispiel: Bank und bank im deutschen Wikiwörterbuch); dieses Vorgehen weicht von dem der Wikipedias ab, die Groß-/Kleinschreibungsvarianten in einem Eintrag bündeln. Die Möglichkeit, verschiedene Einträge für Groß- und Kleinschreibungsvarianten zu generieren, wurde nach Aussagen des Wikimedia-Projekts Meta erst 2006 geschaffen.[8]
Alle Einträge in den Wiktionarys erhalten eine feste Formatvorlage. Das deutsche Wikiwörterbuch – im Gegensatz zu beispielsweise dem englischen – kategorisiert Artikel nicht nach der Bedeutung der erklärten Begriffe (es gibt also beispielsweise keine Kategorien „Biologie“ oder „Medizin“), sondern hauptsächlich nach ihrer Zugehörigkeit zu einer Wortart und einer Sprache. Um dennoch eine gewisse Übersicht über die Abdeckung bestimmter Fachgebiete aus dem Artikelbestand zu bieten, werden manuell gepflegte Listen geführt.[9]
In Wiktionarys können Audiodateien zur Demonstration der Aussprache eingebunden werden. Im deutschen Wikiwörterbuch sind insgesamt in über 850.000 Einträgen Hör- und Aussprachebeispiele verlinkt.[10] Betrachtet man nur die deutschen Einträge, haben mehr als 810.000 Einträge entsprechende Aussprachebeispiele[11] (Stand: 31. Dezember 2023). Darüber hinaus wird das Wikiwörterbuch – per gezieltem Einsatz nur bei hierfür geeigneten Einträgen – zum Bildwörterbuch ausgebaut; zum Stand Dezember 2023 sind in über 28.000 Einträgen Illustrationen eingebunden.[12]
Einige Wiktionarys enthalten ein Reimwörterbuch – auch das deutsche. Darin sind Reimwörter für über 41.000 Wortendungen gesammelt (Stand: 31. Dezember 2023).[13]
Lizenz
Die Inhalte der Wiktionarys sind lizenziert unter der GNU-Lizenz für freie Dokumentation (GFDL) und seit Juni 2009 zusätzlich unter der Creative-Commons-Lizenz „CC-BY-SA 3.0 Unported“. Für die Umstellung auf die Doppellizenz musste erst die GFDL von der Version 1.2 auf eine neue Version 1.3 aktualisiert werden, was aufgrund der Struktur der Version 1.2 ohne Einwilligung der Autorenschaft möglich war. Näheres zur Umstellung auf die Doppellizenz siehe GNU-Lizenz für freie Dokumentation#Verwendung in der Wikipedia.
Übersicht
Nachdem das englischsprachige Wiktionary am 12. Dezember 2002 gestartet worden war, folgten am 29. März 2004 die französisch- und die polnischsprachige Version. Am 1. Mai 2004 wurde zu jeder weiteren Sprache, in der bereits eine Wikipedia-Version betrieben wurde, ein Wiktionary gestartet. So entstanden an einem Tag 143 weitere Wiktionarys, darunter war auch die deutschsprachige Version.[14]
Am 24. August 2017 waren in allen 172 Sprachversionen zusammen über 27,1 Millionen Einträge verfügbar. Die meisten davon, rund 5,3 Millionen, stellt dabei die englischsprachige Version bereit, gefolgt von der madegassischsprachigen mit rund 4,0 Millionen und der französischsprachigen mit rund 3,2 Millionen Einträgen. Diese größten Wiktionarys haben ihre Plätze in der Rangfolge nach Zahl der Einträge mehrmals getauscht; erstmals Anfang 2006 war die französischsprachige Version die mit den meisten Einträgen. Seit Mitte 2010 ist jedoch wieder die englischsprachige die mit den meisten Artikeln. Aktuell stellen die 42 größten Wiktionarys jeweils mehr als 100.000 Einträge bereit. Das deutschsprachige Wiktionary steht mit rund 720.000 Einträgen auf Rang 8 (Stand 8. September 2018).[3]
Die folgende Tabelle stellt die Artikelzahlen der 10 größten Wiktionarys zum Stand vom 3. Juli 2024 zusammen:[15]
Nr.
Sprachkürzel
Sprache
Einträge
1
en
Englisch
8.069.181
2
fr
Französisch
5.801.877
3
mg
Malagasy
4.284.521
4
zh
Chinesisch
1.717.216
5
el
Griechisch
1.526.636
6
ru
Russisch
1.362.687
7
de
Deutsch
1.132.402
8
ku
Kurdisch
1.000.807
9
sv
Schwedisch
942.591
10
es
Spanisch
928.398
Es gibt detaillierte Statistiken, die auch die historische Entwicklung abbilden.[16] Die Zahl der Einträge für sich sagt nur wenig über die Qualität einer Sprachversion des Wiktionary. In die Gesamtzahl der Einträge gehen auch Einträge für flektierte Formen und alternative Schreibweisen ein. Statistiken, die die Einträge nach Qualitätsmerkmalen klassifizieren, sind bislang nur eingeschränkt verfügbar.[17] Es gibt eine Statistik, aus der hervorgeht, dass über alle Sprachversionen hinweg bereits über zwei Drittel (67,5 Prozent) aller Einträge von (registrierten) Bots erstellt wurden.[18] Siehe hierzu auch das Kapitel über Wachstumsschübe durch Bots.
Einzelne Sprachversionen des Wiktionary
Deutsch
Das deutschsprachige Wiktionary oder Wikiwörterbuch wurde am 1. Mai 2004 begonnen. Für die Außendarstellung des Projekts existieren bis heute die beiden Begriffe „Wiktionary“ und „Wikiwörterbuch“ nebeneinander. Im Logo lautet die Abfolge der Textpassagen „Wikiwörterbuch – Wiktionary – [ˈvɪkʃəˌnɛʀi], n – Das freie Wörterbuch – ein Wiki-basiertes freies Wörterbuch“, wobei die oberste und unterste Passage „Wikiwörterbuch“ und „ein Wiki-basiertes freies Wörterbuch“ in grauer Schrift auf heller grauem Untergrund gesetzt sind.
Von den Artikeln waren Mitte Dezember 2020 in der Aufteilung nach Sprache der erklärten Wörter etwa 76 Prozent deutsch, sechs Prozent englisch und knapp drei Prozent tschechisch; der Rest verteilte sich auf über 200 weitere Sprachen. Weil es auch für gebeugte Formen eigene Seiten gibt, relativieren sich die Artikelzahlen. Anfang Juli 2024 gab es insgesamt 1.132.509 Artikel, 881.865 davon zu deutschen Wörtern und davon 151.907 zu deutschen Grundform-Einträgen.
Englisch
Als erste Sprachversion wurde das englischsprachige Wiktionary am 12. Dezember 2002 gestartet. Brion Vibber legte das Wiktionary zunächst auf einer provisorischen URLwiktionary.wikipedia.org an, bevor es am 1. Mai 2004 auf die noch heute gültige URL übertragen wurde.[19] Im November 2005 wurden 100.000 Einträge erreicht, im August 2007 wurden es 500.000. Die Schwelle von 1 Million Einträgen wurde am 18. Oktober 2008 überschritten. Am 7. September 2010 waren es 2 Millionen Einträge, am 25. November 2016 5 Millionen, und den 6-millionsten Eintrag gab es am 9. April 2019.[20]
Unter den am 1. Februar 2020 vorhandenen etwa 6,2 Millionen Einträgen waren aufgeteilt nach Sprache der erklärten Wörter etwa 1.420.948 Einträge lateinisch, 1.160.957 englisch, 899.031 spanisch, 705.382 italienisch, 485.963 russisch, 457.985 französisch, 357.280 deutsch und 347.085 portugiesisch, und der Rest verteilte sich auf weit über 1500 weitere Sprachen.[21]
Französisch
Am 29. März 2004 wurde das französischsprachige Wiktionary oder Wiktionnaire ins Leben gerufen. Mittlerweile weist es über 2,3 Millionen Einträge auf und ist damit nach der englischen Version auf Platz 2 der umfangreichsten Sprachversionen des Wiktionary. Von den am 7. Januar 2013 vorhandenen 2,30 Millionen Einträgen waren gemäß der Aufteilung nach Sprache der erklärten Wörter etwa 1,2 Millionen Einträge französisch, 157.000 russisch, 156.000 bulgarisch, 121.000 englisch und 80.000 slowenisch; der Rest verteilte sich auf über 900 weitere Sprachen.[22] Aus dem Wiktionnaire wurde 2020 das Papierwörterbuch Le Dico abgeleitet.
Vietnamesisch
Das Wiktionary in vietnamesischer Sprache wurde 2004 gegründet. Von den mittlerweile über 230.000 vorhandenen Einträgen waren gemäß der Aufteilung nach Sprache der erklärten Wörter etwa 110.000 englisch, 44.000 französisch, 35.000 russisch und 31.000 vietnamesisch; der Rest verteilte sich auf 54 weitere Sprachen.[23]
Polnisch
Das polnischsprachige Wiktionary wurde im März 2004 ins Leben gerufen. Von den am 20. August 2011 vorhandenen etwa 236.000 Einträgen waren gemäß der Aufteilung nach Sprache der erklärten Wörter etwa 35.000 Einträge englisch, 30.000 polnisch, 21.000 chinesisch und 19.400 in der Plansprache Interlingua; der Rest verteilte sich auf 264 weitere Sprachen.[24] Die zirka 7.900 Einträge in jiddisch machen das polnische Wiktionary nach eigener Darstellung[25] zum größten modernen Wörterbuch der Nachkriegszeit für Jiddisch, das in Polen ‚herausgegeben‘ wurde. Knapp 6.000 dieser Einträge entstanden 2007 durch eine Bot-Aktion (siehe das Kapitel über Wachstumsschübe durch Bots).
Wachstumsschübe durch Bots
Die meisten Einträge in den umfangreichsten Sprachversionen des Wiktionary sind durch den Einsatz von Bots entstanden. Ihre Programmierer fanden kreative Wege, um große Zahlen neuer Einträge zu generieren oder tausende von Einträgen aus öffentlich zugänglichen Wörterbüchern maschinell zu importieren.
Sieben der mittlerweile über 30 Bots, die beim englischsprachigen Wiktionary als solche gelistet sind,[26] haben dort etwa 163.000 Einträge neu erstellt.[27] 259 Komplex-Einträge, die selbst viele Definitionen enthalten, wurden von Websterbot aus öffentlich verfügbaren Quellen importiert; die meisten dieser Importe sind manuell in Tausende Einträge gesplittet worden. Ein weiterer dieser Bots, ThirdPersBot, erstellte Verbnebenformen in der dritten Person Singular, die in gedruckten Wörterbüchern üblicherweise nicht einzeln aufgeführt werden. Zur Zeit dieser Aktionen im Jahr 2006 hatte das englischsprachige Wiktionary ohne die etwa 163.000 Bot-Einträge etwa 137.000 Einträge und war damit noch deutlich kleiner als viele gedruckte Wörterbücher: So umfasst das Oxford English Dictionary etwa 615.000 Worteinträge und das Merriam-Webster’s Third New International Dictionary of the English Language, Unabridged 475.000 Einträge; dabei sind viele Wortwendungen nur im Textkörper anderer Einträge vorhanden.
Die Wiktionarys in englischer und französischer Sprache haben die zirka 20.000 Einträge der Unihan-Datenbank der CJK-Schriftzeichen (chinesisch, japanisch und koreanisch) importiert.
Auch das rapide Wachstum des französischsprachigen Wiktionary im Jahr 2006 geht hauptsächlich auf die Arbeit von Bots zurück, die viele Einträge aus alten, lizenzfreien Wörterbüchern wie der 8. Ausgabe des Dictionnaire de l’Académie française von 1935 mit rund 35.000 Worteinträgen übernahmen, sowie von Bots, die Begriffe aus anderen Sprachausgaben des Wiktionary mit französischen Übersetzungen importierten. Das französisch- wie das vietnamesischsprachige Wiktionary haben große Teile des Free Vietnamese Dictionary Project (FVDP)[28] importiert. Dieses bietet frei zugängliche zweisprachige Wörterbücher von und ins Vietnamesische an.[29] Das vietnamesischsprachige Wiktionary bestand nach dieser Aktion fast ausschließlich aus diesen importierten Einträgen.
Das Wiktionary in polnischer Sprache hat mit Hilfe des Bots Tsca.bot[30] im Zeitraum vom 10. Juli bis zum 27. November 2004 zirka 15.000 Stummeleinträge der Plansprache Interlingua mit Genehmigung des Autors von der Webpräsenz interlingua.filo.pl importiert.[31] Mit Hilfe desselben Bots Tsca.bot wurden vom 31. März bis zum 2. April 2007 knapp 6.000 Einträge in jiddischer Sprache angelegt, die zumeist neben der polnischen Übersetzung die IPA-Aussprache und die YIVO-Transkription enthielten.[32]
Das russischsprachige Wiktionary übernahm mit Hilfe des Bots LXbot ab Oktober 2006 etwa 80.000 Stummeleinträge („Boilerplates“) für englische, deutsche und französische Wörter.[33][34][35] Ab Juni 2008 wurden durch den Bot TrudoBot in hoher Zahl Stummeleinträge für russische Wörter erstellt.[36]
Bedeutung
Sprachübergreifend gesehen wird wiktionary.org von Alexa Internet im sogenannten „Alexa Traffic Rank“ auf Rang 555 (Stand: 24. August 2017) geführt.[37] Von den registrierten Zugriffen erfolgten nach Sprachversion etwa 45 % auf die englische, 15 % auf die russische, 13 % auf die französische sowie 6 % auf die deutsche Version; der Rest verteilte sich auf die vielen weiteren Sprachversionen.
Bewertung
Deutsches Wiktionary
Einträge im deutschsprachigen Wiktionary tendieren dazu, präskriptiv zu sein,[38] und dortige Erklärungen sind mitunter linguistisch unpräzise.[39]
Für die wissenschaftliche Lexikographie stellt das deutsche Wiktionary keine Konkurrenz dar.[40]
Englisches Wiktionary
2006 wurde in dem Buch Das Internet und der autonome Lerner für die englischsprachige Version des Wiktionary kritisiert, dass die Richtigkeit für Laien nicht nachvollziehbar sei, die Einträge unvollständig seien, Informationen zur Aussprache der Wörter meist fehlten sowie Audio-Beispiele nur manchmal vorhanden und Übersetzungen in andere Sprachen oft nicht verfügbar seien.[41]
Ontology Learning and Knowledge Discovery Using the Web führt wissenschaftliche Untersuchungen über das englischsprachige Wiktionary aus den Jahren 2006 bis 2009 auf. Gegenüber WordNet wird positiv hervorgehoben, dass das englischsprachige Wiktionary auch Einträge von Kompositionen, Akronymen, Abkürzungen, Fehlschreibungen und vereinfachten Schreibweisen gestattet. Als Nachteile wurden in einer Untersuchung von Navarro et al. aus dem Jahr 2009 unvollständige, fast leere Einträge, die ungleiche Gewichtung der Sprachen und die geringe Zahl verzeichneter Synonyme bemängelt.[42]
Das im Jahr 2012 erschienene Buch Electronic Lexicography stellte fest, dass das englische Wiktionary im Vergleich zu WordNet besser abschneidet, wenn es darum geht, die Bedeutung der Einträge nach der geläufigsten Verwendung aufzuführen. Die Zuordnung von Wörtern nach bestimmten Merkmalen wie Fachgebiet, linguistischer Varietät und zeitlicher und regionaler Einordnung wird für die englischsprachige Version besser bewertet als in der deutsch- und russischsprachigen, weil dort mehr Einträgen mindestens ein Merkmal zugeordnet worden ist, als dies in der deutschen und russischsprachigen Variante der Fall gewesen ist. Hervorgehoben wird, dass sich die Mehrheit der Zuordnungen der Wörter nach Merkmalen auf Fachgebiete bezieht, woraus die Untersuchung auf das Mitwirken entsprechender Fachleute schließt. Wiktionary wird als Konkurrent von durch Experten generierten Lexika angesehen, das eine Vielzahl von Anwendungsmöglichkeiten eröffne.[43]
Literatur
Kai-Uwe Carstensen, Christian Ebert, Susanne Jekat, Cornelia Ebert, Hagen Langer, Ralf Klabunde (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. 3. Auflage. Spektrum Akademischer Verlag, Heidelberg 2010, ISBN 978-3-8274-2023-7 (insbesondere S. 548–550).
A. Elia: Can a collaborative Wiki Weblish Dictionary Project help academic writing of ICT language learners? In: Isabel González-Pueyo, Carmen Foz Gil, Mercedes Jaime Siso, Marco Luzón, María José (Hrsg.): Teaching Academic and Professional English Online. Peter Lang Publishing Group, 2009, ISBN 978-3-03911-582-2.
↑Phoebe Ayers, Charles Matthews, Ben Yates: How Wikipedia Works: And How You Can Be a Part of It. No Starch Press, 2008, S. 430; vgl. [Wikipedia-l] Wiktionary, 17. April 2001.
↑Aussage auf Wiktionary in der englischsprachigen Version, abgerufen am 2. September 2009; angegeben werden folgende Bearbeitungszähler für 5 Bots: TheDaveBot, TheCheatBot, Websterbot, PastBot, NanshuBot. Allerdings ist hier zu beachten, dass nicht jeder Edit eine Neuanlage eines Eintrags darstellt.
↑Petra Storjohann: Was ist der Unterschied zwischen sensitiv und sensibel? In: Zeitschrift für angewandte Linguistik. Band 62, Nr. 1, 2015, S. 120.
↑Petra Storjohann (als wissenschaftliche Mitarbeiterin am Institut für Deutsche Sprache in Mannheim): Das künftige Projekt „elexiko: Paronymwörterbuch“. In: IDS Sprachreport. 1/2014, S. 22.
↑Carolin Müller-Spitzer: Aufgaben und Relevanz der Wörterbuchbenutzungsforschung Mitte der 2010er Jahre. Abschnitt 3.3. In: Wörterbuchforschung und Lexikographie. Walter de Gruyter, 2016.
↑Felix Kapohl: Das Internet und der autonome Lerner: Kostenlose Lehr-/Lernangebote im Internet für fortgeschrittene Englischlerner. Ursprünglich: Das Internet und der autonome Lerner, Magisterarbeit, eingereicht 2006. GRIN Verlag. books.google.de
↑Ontology Learning and Knowledge Discovery Using the Web. S. 87. books.google.de
↑Dbnary: „Dbnary is an effort to provide multilingual lexical data extracted from wiktionary.“
↑PanLex: PanLex Source List: „The table below lists all lexical data sources (dictionaries, thesauri, wiktionaries, WordNets, and similar) currently registered in PanLex.“ (vgl. auch Suche nach Wiktionary, Wiki (was z. B. Wikiwörterbuch – das deutsche Wiktionary – liefert), Viki, Dbnary)