L'anàlisi semàntica latent (LSA) és una tècnica de processament del llenguatge natural, en particular la semàntica distributiva, per analitzar les relacions entre un conjunt de documents i els termes que contenen mitjançant la producció d'un conjunt de conceptes relacionats amb els documents i els termes. LSA assumeix que les paraules que tenen un significat proper apareixeran en fragments de text similars (la hipòtesi de la distribució). Es construeix una matriu que conté el recompte de paraules per document (les files representen paraules úniques i les columnes representen cada document) es construeix a partir d'un gran tros de text i s'utilitza una tècnica matemàtica anomenada descomposició de valors singulars (SVD) per reduir el nombre de files tot preservant l'estructura de semblança. entre columnes. A continuació, es comparen els documents per similitud de coseus entre dues columnes qualsevol. Els valors propers a 1 representen documents molt semblants, mentre que els valors propers a 0 representen documents molt diferents.[1]
LSA pot utilitzar una matriu document-terme que descriu l'aparició de termes als documents; és una matriu escassa les files de la qual corresponen a termes i les columnes corresponen a documents. Un exemple típic de la ponderació dels elements de la matriu és tf-idf (freqüència del terme–freqüència inversa del document): el pes d'un element de la matriu és proporcional al nombre de vegades que apareixen els termes en cada document, on els termes rars es ponderen per reflectir la seva importància relativa.
Aplicacions
El nou espai de dimensions baixes normalment es pot utilitzar per:
Donada una consulta de termes, traduïu-la a l'espai de dimensions baixes i trobeu documents coincidents (recuperació d'informació).
Trobeu la millor similitud entre petits grups de termes, d'una manera semàntica (és a dir, en un context d'un corpus de coneixement), com per exemple en el model de resposta MCQ de preguntes d'elecció múltiple.[3]
Amplieu l'espai de funcions dels sistemes d'aprenentatge automàtic / mineria de text [4]
Analitzar l'associació de paraules en un corpus de text [5]
La sinonímia és el fenomen on diferents paraules descriuen una mateixa idea. Per tant, una consulta en un motor de cerca pot no recuperar un document rellevant que no contingui les paraules que van aparèixer a la consulta. Per exemple, una cerca de "metges" pot no retornar un document que contingui la paraula "metges", encara que les paraules tinguin el mateix significat.
La polisèmia és el fenomen on una mateixa paraula té múltiples significats. Per tant, una cerca pot recuperar documents irrellevants que continguin les paraules desitjades amb el significat incorrecte. Per exemple, un botànic i un informàtic que busquen la paraula "arbre" probablement desitgin diferents conjunts de documents.
Implementació
El SVD es calcula normalment utilitzant mètodes de matriu gran (per exemple, mètodes Lanczos), però també es pot calcular de manera incremental i amb recursos molt reduïts mitjançant un enfocament similar a una xarxa neuronal, que no requereix que la matriu gran i de rang complet es mantingui en memòria. Recentment s'ha desenvolupat un algorisme SVD ràpid, incremental, de poca memòria i de matriu gran.[6] Hi ha disponibles implementacions de MATLAB i Python d'aquests algorismes ràpids. A diferència de l'aproximació estocàstica de Gorrell i Webb (2005), l'algoritme de Brand (2003) proporciona una solució exacta. En els darrers anys s'ha avançat per reduir la complexitat computacional de la SVD; per exemple, utilitzant un algorisme ARPACK paral·lel per dur a terme la descomposició de valors propis paral·lel, és possible accelerar el cost de càlcul SVD alhora que proporciona una qualitat de predicció comparable.[7]
Referències
↑Susan T. DumaisAnnual Review of Information Science and Technology, 38, 2005, pàg. 188–230. DOI: 10.1002/aris.1440380105.
↑Ding, Yaguang. «A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK». A: Proceedings of 2011 International Conference on Computer Science and Network Technology (en anglès), 2011, p. 739–741. DOI10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7.