Anàlisi semàntica latent

Animació del procés de detecció de temes en una matriu document-paraula. Cada columna correspon a un document, cada fila a una paraula. Una cel·la emmagatzema la ponderació d'una paraula en un document (p. ex. mitjançant tf-idf), les cel·les fosques indiquen pes alts. LSA agrupa tant documents que contenen paraules semblants com paraules que apareixen en un conjunt similar de documents. Els patrons resultants s'utilitzen per detectar components latents.

L'anàlisi semàntica latent (LSA) és una tècnica de processament del llenguatge natural, en particular la semàntica distributiva, per analitzar les relacions entre un conjunt de documents i els termes que contenen mitjançant la producció d'un conjunt de conceptes relacionats amb els documents i els termes. LSA assumeix que les paraules que tenen un significat proper apareixeran en fragments de text similars (la hipòtesi de la distribució). Es construeix una matriu que conté el recompte de paraules per document (les files representen paraules úniques i les columnes representen cada document) es construeix a partir d'un gran tros de text i s'utilitza una tècnica matemàtica anomenada descomposició de valors singulars (SVD) per reduir el nombre de files tot preservant l'estructura de semblança. entre columnes. A continuació, es comparen els documents per similitud de coseus entre dues columnes qualsevol. Els valors propers a 1 representen documents molt semblants, mentre que els valors propers a 0 representen documents molt diferents.[1]

Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum i Lynn Streeter van patentar l'any 1988 una tècnica de recuperació d'informació que utilitzava una estructura semàntica latent (patent dels EUA 4.839.853 Arxivat 2017-12-02 a Wayback Machine., caducada). En el context de la seva aplicació a la recuperació d'informació, de vegades s'anomena indexació semàntica latent (LSI).[2]

Visió general

Matriu d'ocurrència

LSA pot utilitzar una matriu document-terme que descriu l'aparició de termes als documents; és una matriu escassa les files de la qual corresponen a termes i les columnes corresponen a documents. Un exemple típic de la ponderació dels elements de la matriu és tf-idf (freqüència del terme–freqüència inversa del document): el pes d'un element de la matriu és proporcional al nombre de vegades que apareixen els termes en cada document, on els termes rars es ponderen per reflectir la seva importància relativa.

Aplicacions

El nou espai de dimensions baixes normalment es pot utilitzar per:

  • Compareu els documents en l'espai de dimensions baixes (agrupació de dades, classificació de documents).
  • Trobeu documents similars en diferents idiomes, després d'analitzar un conjunt base de documents traduïts (recuperació d'informació entre idiomes).
  • Trobar relacions entre termes (sinonímia i polisèmia).
  • Donada una consulta de termes, traduïu-la a l'espai de dimensions baixes i trobeu documents coincidents (recuperació d'informació).
  • Trobeu la millor similitud entre petits grups de termes, d'una manera semàntica (és a dir, en un context d'un corpus de coneixement), com per exemple en el model de resposta MCQ de preguntes d'elecció múltiple.[3]
  • Amplieu l'espai de funcions dels sistemes d'aprenentatge automàtic / mineria de text [4]
  • Analitzar l'associació de paraules en un corpus de text [5]

La sinonímia i la polisèmia són problemes fonamentals en el processament del llenguatge natural:

  • La sinonímia és el fenomen on diferents paraules descriuen una mateixa idea. Per tant, una consulta en un motor de cerca pot no recuperar un document rellevant que no contingui les paraules que van aparèixer a la consulta. Per exemple, una cerca de "metges" pot no retornar un document que contingui la paraula "metges", encara que les paraules tinguin el mateix significat.
  • La polisèmia és el fenomen on una mateixa paraula té múltiples significats. Per tant, una cerca pot recuperar documents irrellevants que continguin les paraules desitjades amb el significat incorrecte. Per exemple, un botànic i un informàtic que busquen la paraula "arbre" probablement desitgin diferents conjunts de documents.

Implementació

El SVD es calcula normalment utilitzant mètodes de matriu gran (per exemple, mètodes Lanczos), però també es pot calcular de manera incremental i amb recursos molt reduïts mitjançant un enfocament similar a una xarxa neuronal, que no requereix que la matriu gran i de rang complet es mantingui en memòria. Recentment s'ha desenvolupat un algorisme SVD ràpid, incremental, de poca memòria i de matriu gran.[6] Hi ha disponibles implementacions de MATLAB i Python d'aquests algorismes ràpids. A diferència de l'aproximació estocàstica de Gorrell i Webb (2005), l'algoritme de Brand (2003) proporciona una solució exacta. En els darrers anys s'ha avançat per reduir la complexitat computacional de la SVD; per exemple, utilitzant un algorisme ARPACK paral·lel per dur a terme la descomposició de valors propis paral·lel, és possible accelerar el cost de càlcul SVD alhora que proporciona una qualitat de predicció comparable.[7]


Referències

  1. Susan T. Dumais Annual Review of Information Science and Technology, 38, 2005, pàg. 188–230. DOI: 10.1002/aris.1440380105.
  2. «The Latent Semantic Indexing home page» (en anglès).
  3. Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière Behavior Research Methods, 41, 4, 2009, pàg. 1201–1209. arXiv: 0811.0146. DOI: 10.3758/BRM.41.4.1201. PMID: 19897829 [Consulta: lliure].
  4. Ramiro H. Gálvez; Agustín Gravano Journal of Computational Science, 19, 2017, pàg. 1877–7503. DOI: 10.1016/j.jocs.2017.01.001.
  5. Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. Consciousness and Cognition, 56, 2017, pàg. 178–187. arXiv: 1610.01520. DOI: 10.1016/j.concog.2017.09.004. PMID: 28943127.
  6. Matthew Brand «Còpia arxivada». Linear Algebra and Its Applications, 415, 2006, pàg. 20–30. Arxivat de l'original el 2013-12-03. DOI: 10.1016/j.laa.2005.07.021 [Consulta: free].
  7. Ding, Yaguang. «A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK». A: Proceedings of 2011 International Conference on Computer Science and Network Technology (en anglès), 2011, p. 739–741. DOI 10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7.