Razjašnjavanje smisla reči

Razjašnjavanje smisla reči (Word-sense disambiguation, WSD) je proces identifikacije smisla reči na koji se misli u rečenici ili drugom segmentu datog konteksta. U obradi i spoznaji ljudskog jezika, to je obično podsvesno/automatsko, ali često može doći do svesne pažnje kada dvosmislenost narušava jasnoću komunikacije, s obzirom na sveprisutnu polisemiju u prirodnom jeziku. U računarskoj lingvistici, to je otvoreni problem koji utiče na drugo pisanje vezano za računar, kao što je diskurs, poboljšanje relevantnosti pretraživača, rezolucija anafore, koherentnost i zaključivanje.

S obzirom na to da prirodni jezik zahteva odraz neurološke stvarnosti, kao što je oblikovano sposobnostima koje pružaju neuronske mreže mozga, računarska nauka je imala dugoročni izazov u razvoju sposobnosti kompjutera za obradu prirodnog jezika i mašinsko učenje.

Pristupi i metode

Postoje dva glavna pristupa VSD-u – duboki pristupi i plitki pristupi.

Duboki pristupi pretpostavljaju pristup sveobuhvatnom korpusu svetskog znanja. Ovi pristupi se generalno ne smatraju veoma uspešnim u praksi, uglavnom zato što takav korpus znanja ne postoji u kompjuterski čitljivom formatu, izvan veoma ograničenih domena.[1] Pored toga, zbog duge tradicije u računarskoj lingvistici, pokušaja takvih pristupa u smislu kodiranog znanja i u nekim slučajevima, može biti teško napraviti razliku između znanja uključenog u lingvističko ili svetsko znanje. Prvi pokušaj je bio od strane Margaret Masterman i njenih kolega, u jedinici za istraživanje jezika u Kembridžu u Engleskoj tokom 1950-ih. Ovaj pokušaj je kao podatke koristio verziju Rogetovog tezaurusa na bušenim karticama i njegove numerisane „glave“, kao indikator tema i tražio je ponavljanja u tekstu, koristeći postavljeni algoritam preseka. To nije bilo veoma uspešno,[2] ali je imalo snažne veze sa kasnijim radom, posebno sa Jarovskijevom optimizacijom mašinskog učenja tezaurusnim metodom tokom 1990-ih.

Plitki pristupi ne pokušavaju da razumeju tekst, već uzimaju u obzir okolne reči. Kompjuter može automatski da izvede ova pravila, koristeći korpus reči za obuku označenih njihovim osetnim reči. Ovaj pristup, iako teoretski nije jednako moćan kao duboki pristupi, daje superiorne rezultate u praksi, zbog ograničenog znanja računara o svetu.

Postoje četiri konvencionalna pristupa VSD-u:

Skoro svi ovi pristupi funkcionišu tako što definišu prozor od n reči sadržaja oko svake reči koja treba da se razjasni u korpusu i statistički analiziraju tih n okolnih reči. Dva plitka pristupa koja se koriste za obučavanje, a zatim razjašnjavanje su naivni Bajesovi klasifikatori i stabla odlučivanja. U nedavnim istraživanjima, metode zasnovane na kernelu, kao što su metode potpornih vektora, pokazale su superiorne performanse u nadgledanom učenju. Pristupi zasnovani na grafovima takođe su privukli veliku pažnju istraživačke zajednice i trenutno postižu performanse bliske poslednjoj reči tehnologije.

Metode zasnovane na rečniku i znanju

Leskov algoritam[3] je seminalni metod baziran na rečniku. Zasniva se na hipotezi da su reči koje se koriste zajedno u tekstu povezane jedna sa drugom i da se odnos može uočiti u definicijama reči i njihovom smislu. Smisao dve (ili više) reči se može razjasniti pronalaženjem para značenja u rečniku sa najvećim preklapanjem reči u njihovim rečničkim definicijama. Na primer, kada se razdvoje reči „borova šišarka”, definicije odgovarajućih značenja uključuju reči zimzeleno i drvo (barem u jednom rečniku). Sličan pristup[4] traži najkraći put između dve reči: druga reč se iterativno pretražuje među definicijama svake semantičke varijante prve reči, zatim među definicijama svake semantičke varijante svake reči u prethodnim definicijama i tako dalje. Konačno, prva reč je razdvojena izborom semantičke varijante koja minimizira rastojanje od prve do druge reči.

Alternativa upotrebi definicija je razmatranje opšte srodnosti reči-smisla i izračunavanje semantičke sličnosti svakog para značenja reči na osnovu date leksičke baze znanja kao što je WordNet. Metode zasnovane na grafikonima, koje podsećaju na istraživanja šireće aktivacije iz ranih dana istraživanja veštačke inteligencije, primenjene su sa određenim uspehom. Pokazalo se da složeniji pristupi zasnovani na grafovima rade skoro jednako dobro kao i nadgledane metode[5] ili ih čak nadmašuju u pojedinim domenima.[6][7] Nedavno je objavljeno da jednostavne mere povezivanja grafova, kao što je stepen, obavljaju najsavremeniji WSD u prisustvu dovoljno bogate baze leksičkog znanja.[8] Takođe, pokazalo se da automatski prenos znanja u obliku semantičkih odnosa sa Vikipedije na WordNet podstiče jednostavne metode zasnovane na znanju, omogućavajući im da se takmiče sa najboljim nadgledanim sistemima, te čak i da ih nadmašuju u specifičnim domenskim okruženjima.[9]

Upotreba preferencija za izbor (ili ograničenja izbora) je takođe korisna, na primer, znajući da se obično kuva hrana, reč bas se može razdvojiti u „Ja kuvam grgeča“.

Nadzirane metode

Nadzirane metode su zasnovane na pretpostavci da kontekst može sam po sebi pružiti dovoljno dokaza da se razaznaju značenja reči (dakle, zdrav razum i rezonovanje se smatraju nepotrebnim). Verovatno je svaki algoritam mašinskog učenja primenjen na WSD, uključujući povezane tehnike kao što su izbor karakteristika, optimizacija parametara i ansambalsko učenje. Metode potpornih vektora i učenje zasnovano na memoriji su se pokazali kao najuspešniji pristupi do sada, verovatno zato što mogu da se nose sa visokodimenzionalnošću prostora karakteristika. Međutim, ove nadgledane metode su podložne novom uskom grlu u sticanju znanja jer se za obuku oslanjaju na znatne količine ručno označenih korpusa, čije je kreiranje naporno i skupo.

Polunadzirane metode

Zbog nedostatka podataka za obuku, mnogi algoritmi za razaznačavanje smisla reči koriste polunadgledano učenje, koje omogućava i označene i neoznačene podatke. Algoritam Jarovskog je bio rani primer takvog algoritma.[10] On koristi svojstva „Jedan smisao po kolokaciji“ i „Jedan smisao po diskursu“ ljudskih jezika za razjašnjavanje smisla reči. Iz posmatranja proizilazi da reči imaju tendenciju da ispoljavaju samo jedno značenje u većini datog diskursa i na datoj kolokaciji.[11]

Butstraping pristup počinje od male količine početnih podataka za svaku reč: bilo ručno označenih primera za trening ili malog broja pouzdanih pravila odlučivanja (npr. 'sviranje' u kontekstu 'basa' skoro uvek ukazuje na muzički instrument). Seme se koristi za obuku početnog klasifikatora, koristeći bilo koju nadziranu metodu. Ovaj klasifikator se zatim koristi na neoznačenom delu korpusa za izdvajanje većeg skupa za obuku, u koji su uključene samo najpouzdanije klasifikacije. Proces se ponavlja, svaki novi klasifikator se obučava na sukcesivno većem korpusu obuke, sve dok se ceo korpus ne obuhvati ili dok se ne dostigne dati maksimalni broj iteracija.

Metode bez nadzora

Učenje bez nadzora je najveći izazov za WSD istraživače. Osnovna pretpostavka je da se slična značenja javljaju u sličnim kontekstima, i da se smislovi mogu indukovati iz teksta grupisanjem pojavljivanja reči koristeći neku meru sličnosti konteksta,[12] zadatak koji se naziva indukcija smisla reči ili diskriminacija. Zatim se nove pojave reči mogu klasifikovati u najbliže indukovane klastere/čula. Performanse su bile niže nego kod drugih metoda opisanih iznad, mada su poređenja teška pošto indukovani smislovi moraju biti mapirani u poznati rečnik značenja reči. Ako mapiranje na skup rečničkih značenja nije poželjno, mogu se izvršiti evaluacije zasnovane na klasterima (uključujući mere entropije i čistoće). Alternativno, metode indukcije smisla reči mogu se testirati i porediti u okviru aplikacije. Na primer, pokazalo se da indukcija smisla reči poboljšava grupisanje rezultata veb pretrage povećanjem kvaliteta klastera rezultata i stepena diversifikacije lista rezultata.[13][14] Očekuje se da će učenje bez nadzora prevazići usko grlo u sticanju znanja jer ono ne zavisi od manuelnog doprinosa.

Predstavljanje reči uzimajući u obzir njihov kontekst kroz guste vektore fiksne veličine (ugrađivanje reči) postalo je jedan od najosnovnijih blokova u nekoliko NLP sistema.[15][16][17] Iako većina tradicionalnih tehnika ugrađivanja reči spaja reči sa više značenja u jedan vektorski prikaz, one se i dalje mogu koristiti za poboljšanje WSD-a.[18] Jednostavan pristup korišćenju unapred izračunatih ugradnji reči za predstavljanje smisla reči je izračunavanje centoida klastera značenja.[19][20] Pored tehnika ugrađivanja reči, leksičke baze podataka (npr. WordNet, ConceptNet, BabelNet) takođe mogu pomoći sistemima bez nadzora u mapiranju reči i njihovih značenja u rečnike. Neke tehnike koje kombinuju leksičke baze podataka i ugrađivanje reči predstavljene su u AutoExtend-u[21][22] i Anotaciji najprikladnijeg smisla (MSSA).[23] U AutoExtend-u,[22] oni predstavljaju metod koji razdvaja ulaznu reprezentaciju objekta u njegova svojstva, kao što su reči i njihova značenja reči. AutoExtend koristi strukturu grafa za mapiranje objekata reči (npr. tekst) i nereči (npr. sinsetovi u WordNet-u) kao čvorove i odnos između čvorova kao ivice. Relacije (ivice) u AutoExtend-u mogu ili da izraze dodavanje ili sličnost između njegovih čvorova. Prvi obuhvata intuiciju iza računa ofseta,[15] dok drugi definiše sličnost između dva čvora. U MSSA,[23] sistem razjašnjavanja bez nadzora koristi sličnost između značenja reči u prozoru fiksnog konteksta da bi odabrao najprikladniji smisao reči koristeći unapred obučeni model za ugrađivanje reči i WordNet. Za svaki prozor konteksta, MSSA izračunava težište svake definicije smisla reči usrednjavanjem vektora reči u WordNet-ovim glosama (tj. kratko definisanje glosa i jedan ili više primera upotrebe) koristeći unapred obučeni model za ugrađivanje reči. Ovi centri se kasnije koriste za odabir smisla reči sa najvećom sličnošću ciljne reči sa njenim neposredno susednim susedima (tj. prethodnim i sledećim rečima). Nakon što su sve reči označene i razdvojene, mogu se koristiti kao korpus za obuku u bilo kojoj standardnoj tehnici ugrađivanja reči. U svojoj poboljšanoj verziji, MSSA može da koristi ugradnju smisla reči da bi ponovio svoj proces razjašnjavanja iterativno.

Drugi pristupi

Drugi pristupi se mogu razlikovati u svojim metodama:

Drugi jezici

  • Hindi: Nedostatak leksičkih resursa na hindskom je ometao performanse nadgledanih modela WSD-a, dok nenadgledani modeli pate zbog obimne morfologije. Moguće rešenje ovog problema je projektovanje WSD modela pomoću paralelnih korpusa.[32][33] Stvaranje Hindi WordNet-a[34] utrlo je put za nekoliko nadgledanih metoda za koje je dokazano da proizvode veću preciznost u razjašnjavanju imenica.[35]

Softver

  • Babelfy,[36] ujedinjeni savremeni sistem za višejezično razaznavanje značenja reči i povezivanje entiteta
  • BabelNet API,[37] Java API za višejezičnu bazu znanja Word Sense Disambiguation na 6 različitih jezika koristeći BabelNet semantičku mrežu
  • WordNet::SenseRelate,[38] projekat koji uključuje besplatne sisteme otvorenog koda za razjašnjavanje smisla reči i razaznačavanje smisla leksičkih uzoraka
  • UKB: Graph Base WSD,[39] kolekcija programa za razjašnjavanja smisla reči zasnovanog na grafovima i leksičkoj sličnosti/srodnosti koristeći već postojeću Leksičku bazu znanja[40]
  • pyWSD,[41] pitonove implementacije tehnologija za razaznačavanje značenja reči (WSD)

Reference

  1. ^ Lenat & Guha 1989.
  2. ^ Wilks, Slator & Guthrie 1996.
  3. ^ Lesk 1986, стр. 24–26.
  4. ^ Diamantini, C.; Mircoli, A.; Potena, D.; Storti, E. (2015-06-01). „Semantic disambiguation in a social information discovery system”. 2015 International Conference on Collaboration Technologies and Systems (CTS). стр. 326—333. ISBN 978-1-4673-7647-1. S2CID 13260353. doi:10.1109/CTS.2015.7210442. 
  5. ^ Navigli & Velardi 2005, стр. 1063–1074.
  6. ^ Navigli, Litkowski & Hargraves 2007, стр. 30–35.
  7. ^ Agirre, Lopez de Lacalle & Soroa 2009, стр. 1501–1506.
  8. ^ Navigli & Lapata 2010, стр. 678–692.
  9. ^ Ponzetto & Navigli 2010, стр. 1522–1531.
  10. ^ Yarowsky 1995, стр. 189–196.
  11. ^ Mitkov, Ruslan (2004). „13.5.3 Two claims about senses”. The Oxford Handbook of Computational Linguistics (на језику: енглески). OUP. стр. 257. ISBN 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22. 
  12. ^ Schütze 1998, стр. 97–123.
  13. ^ Navigli & Crisafulli 2010.
  14. ^ Di Marco & Navigli 2013.
  15. ^ а б Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-01-16). „Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781Слободан приступ [cs.CL]. 
  16. ^ Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). „Glove: Global Vectors for Word Representation”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. стр. 1532—1543. S2CID 1957433. doi:10.3115/v1/d14-1162Слободан приступ. 
  17. ^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (децембар 2017). „Enriching Word Vectors with Subword Information”. Transactions of the Association for Computational Linguistics. 5: 135—146. ISSN 2307-387X. arXiv:1607.04606Слободан приступ. doi:10.1162/tacl_a_00051Слободан приступ. 
  18. ^ Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). „Embeddings for Word Sense Disambiguation: An Evaluation Study”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics: 897—907. doi:10.18653/v1/P16-1085Слободан приступ. hdl:11573/936571Слободан приступ. Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28. 
  19. ^ Bhingardive, Sudha; Singh, Dhirendra; V, Rudramurthy; Redkar, Hanumant; Bhattacharyya, Pushpak (2015). „Unsupervised Most Frequent Sense Detection using Word Embeddings”. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. стр. 1238—1243. S2CID 10778029. doi:10.3115/v1/N15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21. 
  20. ^ Butnaru, Andrei; Ionescu, Radu Tudor; Hristea, Florentina (2017). „ShotgunWSD: An unsupervised algorithm for global word sense disambiguation inspired by DNA sequencing”. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (на језику: енглески): 916—926. arXiv:1707.08084Слободан приступ. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21. 
  21. ^ Rothe, Sascha; Schütze, Hinrich (2015). „AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes”. Volume 1: Long Papers. Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics. стр. 1793—1803. Bibcode:2015arXiv150701127R. S2CID 15687295. arXiv:1507.01127Слободан приступ. doi:10.3115/v1/p15-1173. 
  22. ^ а б Rothe, Sascha; Schütze, Hinrich (септембар 2017). „AutoExtend: Combining Word Embeddings with Semantic Resources”. Computational Linguistics. 43 (3): 593—617. ISSN 0891-2017. doi:10.1162/coli_a_00294Слободан приступ. 
  23. ^ а б Ruas, Terry; Grosky, William; Aizawa, Akiko (децембар 2019). „Multi-sense embeddings through a word sense disambiguation process”. Expert Systems with Applications. 136: 288—303. S2CID 52225306. arXiv:2101.08700Слободан приступ. doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475Слободан приступ. 
  24. ^ Gliozzo, Magnini & Strapparava 2004, стр. 380–387.
  25. ^ Buitelaar et al. 2006, стр. 275–298.
  26. ^ McCarthy et al. 2007, стр. 553–590.
  27. ^ Mohammad & Hirst 2006, стр. 121–128.
  28. ^ Lapata & Keller 2007, стр. 348–355.
  29. ^ Ide, Erjavec & Tufis 2002, стр. 54–60.
  30. ^ Chan & Ng 2005, стр. 1037–1042.
  31. ^ Shieber, Stuart M. (1992). Constraint-based Grammar Formalisms: Parsing and Type Inference for Natural and Computer Languages (на језику: енглески). Massachusetts: MIT Press. ISBN 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23. 
  32. ^ Bhattacharya, Indrajit, Lise Getoor, and Yoshua Bengio. Unsupervised sense disambiguation using bilingual probabilistic models Архивирано 2016-01-09 на сајту Wayback Machine. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004.
  33. ^ Diab, Mona, and Philip Resnik. An unsupervised method for word sense tagging using parallel corpora Архивирано 2016-03-04 на сајту Wayback Machine. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002.
  34. ^ Hindi WordNet
  35. ^ Manish Sinha, Mahesh Kumar, Prabhakar Pande, Laxmi Kashyap, and Pushpak Bhattacharyya. Hindi word sense disambiguation Архивирано 2016-03-04 на сајту Wayback Machine. In International Symposium on Machine Translation, Natural Language Processing and Translation Support Systems, Delhi, India, 2004.
  36. ^ „Babelfy”. Babelfy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22. 
  37. ^ „BabelNet API”. Babelnet.org. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22. 
  38. ^ „WordNet::SenseRelate”. Senserelate.sourceforge.net. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22. 
  39. ^ „UKB: Graph Base WSD”. Ixa2.si.ehu.es. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22. 
  40. ^ „Lexical Knowledge Base (LKB)”. Moin.delph-in.net. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22. 
  41. ^ alvations. „pyWSD”. Github.com. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22. 

Literatura

Spoljašnje veze