Worteinbettung

Bei einer Worteinbettung (englisch word embedding) handelt es sich um eine Einbettung, bei der Worte oder andere Symbole jeweils einem Vektor v mit zugeordnet werden. Dies kommt vor allem beim maschinellen Lernen zum Einsatz. Das Ziel hierbei ist eine abstrakte Darstellung der Bedeutung der Worte bzw. Symbole bei gleichzeitiger Dimensionsreduktion zu erhalten.[1]

Bag-of-Words

Bag-of-Words[2] ist die einfachste Form der Worteinbettung. Hierbei wird jedem Symbol s ein zufälliger diskreter Wert v mit zugeordnet. Beispielsweise kann eine Aussage wie

„Der grüne Frosch springt in den See.“

in eine Folge von Zahlen übersetzt werden

Hiermit kann z. B. ein Textkorpus nach Stichworten durchsucht werden, indem eine Suchabfrage mit einem Index der enthaltenen Wörter verglichen wird.

Hierbei gilt es zu beachten, dass Synonyme auch denselben Wert erhalten müssen. Beispielsweise „Geldautomat“ und „Bankomat“ oder „Auto“ und „PKW“, sowie von einem Wortstamm abgeleitete oder modifizierte Worte wie „Grün“, „grüner“, „Gruen“ etc. Ein solches Mapping kann über Wörterbücher erfolgen, was jedoch einen erheblichen manuellen Aufwand bedeutet. Zudem gibt es keine Unterscheidungsmöglichkeit bei Homonymen. Der Begriff „Bank“ im Sinne eines Geldinstituts erhält denselben Wert wie der Begriff „Bank“ im Sinne einer Parkbank.

Word2Vec

Word2Vec[3], auch als Continuous Bag-of-Words (CBOW) oder Skip-Gram bezeichnet, erweitert das Prinzip von Bag-of-Words, indem einem Symbol s ein mehrdimensionaler und kontinuierlicher Wert zugeordnet wird. Dieser Wert wird derart festgelegt, dass die Wahrscheinlichkeit P des Wertes v an der Stelle t in Abhängigkeit von den n davorstehenden und n dahinterstehenden Worten maximiert wird.

Beispielsweise kann in dem Satz

„Der grüne Frosch [???] in den See.“

das Wort „springt“ vorhergesagt werden, indem berechnet wird, wie hoch die Wahrscheinlichkeit ist, dass das Wort „springt“ vorkommt, während davor die Worte „der“, „grüne“ und „Frosch“ und dahinter die Worte „in“, „den“ und „See“ stehen.

Die Wahrscheinlichkeit P, dass das Symbol s mit an der Stelle t steht, ergibt sich aus

Hierbei ist T die Position der Worte im Satz, ist die Softmax-Funktion über alle Worte (S wird auch als „Vokabular“ bezeichnet und umfasst alle möglichen Worte) und ist der Vektor des Wortes w an der Stelle T. Die Softmax-Funktion σ normiert hierbei die Wahrscheinlichkeit derart, dass die Summe aller Wahrscheinlichkeiten gleich 1 ist.

Die Vektoren v, welche die Symbole abbilden, werden mittels des Gradientenverfahrens berechnet, sodass die Wahrscheinlichkeit das falsche Wort vorherzusagen minimiert wird. Um die Wahrscheinlichkeit zu berechnen, werden große Textsammlungen als Trainingsdaten benötigt.

Der Vorteil dieses Verfahrens besteht darin, dass die resultierenden Vektoren die Wortbedeutung repräsentieren und auf dieser logische Aussagen und Ähnlichkeitsaussagen getroffen werden können. Beispielsweise ergibt die Berechnung der Vektorkomposition v(„König“) − v(„Mann“) + v(„Frau“) = v(„Königin“). Zudem werden Synonyme korrekt abgebildet, etwa v(„Geldautomat“) = v(„Bankomat“).

Problematisch an diesem Verfahren ist, dass Homonyme nicht korrekt bestimmt werden können. v(„Bank“) ergibt daher einen Vektor, welcher zwischen den Vektoren v(„Geldinstitut“) und v(„Parkbank“) liegt, jedoch keinen dieser Bedeutungen aus den Kontext einer Aussage klar abbildet. Weitere Probleme können sich aus Trainingsdaten mit einem Bias ergeben, welche zu Verzerrungen des Vektorraums führen und z. B. eine Vektorkomposition wie v(„Arzt“) − v(„Mann“) + v(„Frau“) = v(„Krankenschwester“) anstatt von v(„Ärztin“) ergibt.[4] Ein weiterer Nachteil ist, dass dieses Verfahren nicht geeignet ist, um den Inhalt längerer Aussagen korrekt abbilden zu können, da nur die einem Symbol nahestehenden Symbole als Kontext berücksichtigt werden.

Kontextabhängige Worteinbettung

Das Ziel der kontextabhängigen Worteinbettung (engl. Contextual Word Embedding) ist es, dass homonyme Bedeutungen korrekt dargestellt werden können. Hierbei wird ein rekurrentes neuronales Netz (RNN) oder Convolutional Neural Network (CNN) mittels unüberwachtem Lernen trainiert, anhand einer gegebenen Menge an Symbolen das nächste Symbol in einer Sequenz vorherzusagen. Das RNN kann diese Vorhersage auch bei langen Symbolfolgen anhand eines internen Zustands (hidden state) durchführen. Der interne Zustand bildet konzeptionell den Kontext des Symbols ab und ist nicht auf den aktuell berücksichtigten Ausschnitt der Symbolfolge begrenzt.

Die erste Version dieses Verfahrens stellt TagLM dar[5]. Dieses nutzt zwei Long-short-term-memory-Netzwerke (LSTM), wobei eine LSTM die Symbolfolge in einen internen Zustand codiert und das zweite LSTM den internen Zustand in eine Symbolfolge dekodiert. Der interne Zustand ergibt sich hierbei aus einer Verknüpfung des Word2Vec-Vektors eines Symbols mit einem Token, welches die Position des Symbols repräsentiert, und die Konvolution der entsprechenden Werte.

Eine Weiterentwicklung von TagLM ist Embeddings from Language Models (ELMo).[6] Anstatt Worte als Vektoren zu verarbeiten, werden hierbei einzelne Zeichen (z. B. Buchstaben) verarbeitet. Hierdurch entfallen Word2Vec-basierte Verfahren.

Transformer

Transformer[7] lösen die Problematik, dass LSTMs auf Basis von rekurrenten Netzen nur sehr langsam trainiert werden können und das Training nur schwer parallelisiert werden kann.[1] Die Konvolution wird hierbei von einem Aufmerksamkeits-Mechanismus abgelöst. Die Aufmerksamkeit bestimmt hierbei, welche Symbole einer Folge als Kontext berücksichtigt werden sollen. Transformer verwenden mehrere Aufmerksamkeits-Mechanismen parallel (Multi-Head-Attention), um eine Menge aus mehreren Symbolen als Kontext berücksichtigen zu können. Um Abhängigkeiten eines Symbols von entfernten Symbolen berücksichtigen zu können, können mehrere Transformer-Blöcke in Serie geschaltet werden. Beispielsweise lassen sich so in der Aussage

„Der grüne [???] springt in den [???].“

sowohl die Begriffe „Frosch“ als auch „See“ ermitteln, da der Gesamt-Kontext zur Berechnung der Symbolwahrscheinlichkeiten berücksichtigt wird.

Einzelnachweise

  1. a b Antonio Lopardo: Word2Vec to Transformers. Towards Data Science Inc., 7. Januar 2020, abgerufen am 8. Dezember 2020 (englisch).
  2. Yin Zhang, Rong Jin, Zhi-Hua Zhou: Understanding Bag-of-Words Model: A Statistical Framework. In: International Journal of Machine Learning and Cybernetics. Springer, 28. August 2020, abgerufen am 8. Dezember 2020.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Grec Corrado, Jeffrey Dean: Distributed Representations of Words and Phrases and their Compositionality. (PDF) Google Inc., 2013, abgerufen am 8. Dezember 2020 (englisch).
  4. Tommaso Buonocore: Man is to Doctor as Woman is to Nurse: the Gender Bias of Word Embeddings. Towards Data Science Inc., 8. März 2019, abgerufen am 8. Dezember 2020 (englisch).
  5. Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, Russell Power: Semi-supervised sequence tagging with bidirectional language models. (PDF) Allen Institute for Artificial Intelligence, 29. April 2017, abgerufen am 8. Dezember 2020 (englisch).
  6. Mathew E. Peters, Mark Neumann, Mohit Iyver, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettelmoyer: Deep contextualized word representations. (PDF) Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering – University of Washington, 22. März 2018, abgerufen am 8. Dezember 2020 (englisch).
  7. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: arxiv. Google Brain, 12. Juni 2017, abgerufen am 8. Dezember 2020 (englisch).

Read other articles:

جزيرة درسة جزيرة درسة صورة التقطها رواد فضاء وكالة ناسا لجزيرة درسة معلومات جغرافية المنطقة أرخبيل سقطرى  [لغات أخرى]‏  الموقع المحيط الهندي الإحداثيات 12°06′00″N 53°16′00″E / 12.1°N 53.266666666667°E / 12.1; 53.266666666667  الأرخبيل سقطرى المسطح المائي بحر العرب  الم...

 

Indian women in danceShobana, performing classical danceOccupation(s)Dancer, Choreographer, Music composer, Musician, Teacher and AuthorKnown forBharatanatyam This list of Indian women in dance includes women from India or of Indian parentage who are notable for their involvement with modern or traditional Indian dance, as dancers or choreographers. This list is not for women whose involvement with dance is not central to their careers, as is the case with many Bollywood actresses. Chor...

 

Bibiana Steinhaus Bibiana Steinhaus (lahir 24 Maret 1979) adalah wasit sepakbola Jerman yang bermarkas di Langenhagen. Dia menjadi wasit untuk MTV Engelbostel-Schulenburg dari Lower Saxony Football Association. Karier wasit Steinhaus meresmikan pertandingan testimonial Birgit Prinz pada 2012. Sebelum menjadi wasit seperti ayahnya, Steinhaus bermain sebagai pesepakbola untuk SV Bad Lauterberg.[1] Steinhaus menjadi wasit dari klub MTV Engelbostel-Schulenburg, dan mulai memimpin pada lev...

العلاقات الأنغولية البحرينية أنغولا البحرين   أنغولا   البحرين تعديل مصدري - تعديل   العلاقات الأنغولية البحرينية هي العلاقات الثنائية التي تجمع بين أنغولا والبحرين.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقا...

 

Piala Super Saudi Berain 2020TurnamenPiala Super Saudi Al-Hilal Al-Nassr Liga Pro Piala Raja 0 3 Tanggal30 Januari 2021 (2021-01-30)StadionStadion Internasional Raja Fahd, RiyadhWasitDaniele Orsato (Italia)[1]Penonton0[note 1]CuacaBerawan15 °C (59 °F)Kelembapan35%← 2019 2021 → Piala Super Saudi 2020 (juga dikenal sebagai Piala Super Saudi Berain untuk alasan sponsor) adalah edisi ke-7 Piala Super Saudi, pertandingan sepak bola tahunan yang dimainka...

 

Untuk kegunaan lain, lihat Organ. OrganBeragam organ internal dalam tubuh manusiaRincianSistemSistem organPengidentifikasiBahasa LatinorganiYunaniΟργανοFMA67498Daftar istilah anatomi[sunting di Wikidata] Dalam biologi, organ adalah kelompok jaringan yang menjalankan fungsi serupa. Kehidupan hewan dan tumbuhan bergantung pada banyak organ yang bekerja sama dalam bentuk sistem organ. Secara umum, jaringan yang menyusun organ dapat digolongkan menjadi parenkim dan stroma. Parenkim meru...

Yumi, Yumi, YumiLagu kebangsaan  VanuatuPenulis lirikFrançois Vincent AyssavKomponisFrançois Vincent AyssavPenggunaan1980Sampel audioYumi, Yumi, Yumi (instrumental)berkasbantuan Sampel audioYumi, Yumi, Yumiberkasbantuan Yumi, Yumi, Yumi (bahasa Bislama: Kami, Kami, Kami) adalah lagu kebangsaan dari Vanuatu. Lagu ini ditulis dan disusun oleh François Vincent Ayssav (lahir 1955) dan diadopsi pada tahun 1980. Bahasa Bislama Refrain: Yumi, yumi, yumi i glat blong talem se Yumi, yumi, yumi...

 

أبجدية تركيةمعلومات عامةالبداية 1928 الاستعمال التركية نظام الكتابة إخطاطة لاتينية لديه جزء أو أجزاء ABC أبجدية تركية عثمانية تعديل - تعديل مصدري - تعديل ويكي بيانات لغة تركية أبجدية علم الأصوات مفردات قواعد التاريخ عثمانية الكلمات المستعارة عنت الأبجدية التركية المستخدمة �...

 

NGC 4455   جزء من عنقود العذراء المجري  الكوكبة الهلبة[1]  رمز الفهرس NGC 4455 (الفهرس العام الجديد)IRAS 12262+2305 (IRAS)MCG+04-30-001 (فهرس المجرات الموروفولوجي)UGC 7603 (فهرس أوبسالا العام)IRAS F12262+2305 (IRAS)PGC 41066 (فهرس المجرات الرئيسية)EVCC 711 (Extended Virgo Cluster Catalog)SDSS J122844.11+224913.5 (مسح سلون الرقمي للسم�...

19th-century Spanish politician In this Spanish name, the first or paternal surname is Castelar and the second or maternal family name is Ripoll. The Most ExcellentEmilio CastelarCastelar, by Joaquín Sorolla.President of the Executive PowerIn office7 September 1873 – 3 January 1874Preceded byNicolás SalmerónSucceeded byFrancisco SerranoSeat D of the Real Academia EspañolaIn office25 April 1880 – 25 May 1899Preceded byPedro Felipe Monlau [es]Succe...

 

Remote administration and web conferencing software A major contributor to this article appears to have a close connection with its subject. It may require cleanup to comply with Wikipedia's content policies, particularly neutral point of view. Please discuss further on the talk page. (February 2021) (Learn how and when to remove this message) TeamViewerTeamViewer Remote 15 on Windows 11Developer(s)TeamViewer SEStable release(s) [±]Windows (desktop app)15.29.4 / 26 April 2022...

 

American physician and gynecologist (1813-1883) J. Marion SimsJ. Marion Sims, engraving after photograph, ca. 1880BornJames Marion SimsJanuary 25, 1813 (1813-01-25)[1]Lancaster County, South Carolina, U.S.DiedNovember 13, 1883 (1883-11-14) (aged 70)[2]New York City, U.S.Resting placeGreen-Wood Cemetery, Brooklyn, New York, U.S.EducationSouth Carolina CollegeMedical College of CharlestonAlma materJefferson Medical CollegeOccupationSurgeonKnown forvesico...

Monopoly in French colonies in North America and the West Indies Not to be confused with Compagnie de l'Occident. Mississippi CompanyCompany typePublicIndustryInternational tradeFounded1684FoundersLouis XIVDefunct1721 (1721)FateBankruptHeadquartersFrance View of the camp of John Law at Biloxi, December 1720 The Mississippi Company (French: Compagnie du Mississippi; founded 1684, named the Company of the West from 1717, and the Company of the Indies from 1719[1]) was a corporation...

 

Former semi-autonomous region in north-western Pakistan (1947–2018) FATA redirects here. For other uses of the acronym, see Fata (disambiguation). Federally Administered Tribal Areasوفاق کے زیر انتظام قبائلی علاقہ جاتفدرالي قبايلي سيمېSemi-autonomous territory of Pakistan1947–2018 Flag Coat of arms Former Location of the Federally Administered Tribal AreasArea • 201727,220 km2 (10,510 sq mi)History • Estab...

 

Antagonists in Nier: Automata MachinesDrakengard raceA small bipedal Machine wielding a sword, one of the most basic Machine models, although they appear in much larger and more complex designsFirst appearanceNier: AutomataLast appearanceNier: Automata Ver1.1aCreated byYoko Taro, Hisayoshi KijimaGenreScience fictionIn-universe informationCreated byAliensTypeRobotLeaderRed Girls The Machines, also known as Machine Lifeforms, are a fictional race of sentient robots and the main antagonists of ...

Disambiguazione – Livio rimanda qui. Se stai cercando altri significati, vedi Livio (disambigua). (LA) «Neque indignetur sibi Herodotus aequari Titum Livium» (IT) «Che Erodoto non s'indigni che gli venga eguagliato Tito Livio» (Quintiliano, Institutio oratoria, X, 1, 101) Busto di Tito Livio, opera di Lorenzo Larese Moretti (1858-1867) Tito Livio (in latino Titus Livius[1]; Patavium, 59 a.C. – Patavium, 17 d.C.) è stato uno storico romano, autore degli Ab Ur...

 

Simpangan nol dalam bentuk gelombang mewakili tegangan vs waktu. Simpangan nol atau silangan nol (bahasa Inggris: zero crossing) adalah suatu keadaan di mana suatu fungsi menyentuh titik nol/saat bahwa suatu fungsi berpindah dari nilai positif ke negatif. Dalam elektronika Dalam dunia elektronika, simpangan nol biasa digunakan untuk mendefinisikan perpotongan antara suatu gelombang listrik (misalnya gelombang sinus) dengan titik nol. Simpangan nol biasa digunakan sebagai rujukan untuk men...

 

العلاقات البيروفية الروسية بيرو روسيا   بيرو   روسيا تعديل مصدري - تعديل   العلاقات البيروفية الروسية هي العلاقات الثنائية التي تجمع بين بيرو وروسيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة بيرو روسيا ال�...

Halaman ini berisi artikel tentang film Italia 1960. Untuk kegunaan lain, lihat Two Women (disambiguasi). Two WomenSutradaraVittorio De SicaProduserCarlo PontiDitulis olehVittorio De SicaCesare ZavattiniAlberto Moravia (novel)PemeranSophia LorenJean-Paul BelmondoEleonora BrownCarlo NinchiPenata musikArmando TrovajoliSinematograferGábor PogányDistributorTitanus DistribuzioneTanggal rilis 22 Desember 1960 (1960-12-22) Durasi100 menitNegaraItaliaBahasaItaliaJermanPendapatankotor2,02...

 

Hippopus Hippopus hippopus Klasifikasi ilmiah Domain: Eukaryota Kerajaan: Animalia Filum: Mollusca Kelas: Bivalvia Ordo: Cardiida Famili: Cardiidae Subfamili: Tridacninae Genus: HippopusLamarck, 1819 Spesies Hippopus hippopus (Linnaeus, 1758) Hippopus porcellanus Rosewater, 1982 Hippopus adalah genus kerang air asin tropis besar dalam subfamili Tridacninae, famili Cardiidae.[1] Referensi ^ MolluscaBase eds. (2021). MolluscaBase. Hippopus Lamarck, 1799. Accessed through: World Registe...