Vektorrom-modellen også kjent som Term vektor-modellen er en algebraisk modell brukt for å representere tekstdokumenter (samt alle andre objekter) som vektorer bestående av identifikatorer, som for eksempel ved å bruke term vekt som parameterverdi. Modellen blir brukt blant annet innen informasjonsgjenfinning, indeksering, informasjonsfiltrering og relevansrangering.
Definisjoner
En term kan representere både ett nøkkelord og en lengre frase.
Dokumenter og spørringer kan bli representert som vektorer, ved å bruke en tallverdi som representerer termen som parameter.
Eksempel:
Hver term representerer en dimensjon innen vektorrommet, med andre ord har vektorrommet like mange dimensjoner som termer. Dette betyr at vektorrommet kan ha uendelige dimensjoner. Hvis termen finnes innen dokumentet, kan verdien bli beregnet og er dermed høyere enn null. Det finnes flere metoder for utregning av termvekt, hvorav en av de beste er vekting etter tf-idf (se eksempel).
Plasseringene i vektorrommet kan så bli sammenlignet med spørringen gjennom en rekke metoder (basert på bruksområde).
Applikasjoner
Kalkulering av relevans kan bli gjort på flere vis, hvor metoden brukt blir basert på ønsket utfall. En måte å regne gjøre dette, er å sammenligne deviasjonen av vinklene mellom hvert dokument og spørringen representert som en vektor. I praksis er det enklere å regne ut cosinuslikheten mellom de to vektorene, i stedet for mellom vinklene:
Eksempel:
Hvor representerer skjæringspunktet (altså prikkproduktet) mellom dokumentet(d2 i bildet til høyre) og spørringens (q i bildet) vektorer, er normen av d2, og er normen av q. Normen til en vektor er kalkulert med:
Siden ingen vektorer i denne modellen kan være negative, vil en cosinusverdi av null tilsi at vektorene til dokumentet og spørringen er ortogonale i forhold til hverandre og dermed helt mangler likhet (spørreordene fins altså ikke i dokumentet).
Eksempel: tf-idf vekting
I den originale vektorrom-modellen foreslått av Salton, Wong and Yang [1] er termvekten i dokumentene produkter av lokale og globale parametere. I modellen kjent som term frequency-inverse document frequency er vekten brukt i vektorene i dokumentet d definert som , hvor:
og
er term frekvensen av termen t i dokument d (ett lokalt parameter)
er den inverse dokument frekvensen (ett globalt parameter), hvor:
er det totale nummeret av dokumenter i ett sett og er antallet dokumenter som inneholder termen t.
Cosinuslikheten mellom dokument dj og spørring q kan dermed bli regnet ut ved:
Tillater beregning av en kontinuerlig grad av likhet mellom spørringer og dokumenter.
Tillater rangering av dokumenter basert på deres antatte relevans.
Tillater delvise likheter.
Ulemper
Lange dokumenter blir dårlig representert på grunn av at de har dårlige likhetsverdier (lave prikkprodukt og høy dimensionalitet).
Spørretermer må være identiske til de i dokumentene.
Dokumenter med lik kontekst, men forskjellig vokabular, blir ikke assosiert, noe som fører til falske negativer.
Rekkefølgen termene følger i dokumentet blir ikke inkludert.
Antar teoretisk at termer er statistisk uavhengig.
Vekting skjer intuitivt, men ikke formelt.
Mange av disse ulempene kan bli unngått ved å legge til flere metoder, som for eksempel Singulær verdidekomposisjon eller bruk av en tesaurus.
Gratis open source programmvare
Apache Lucene. Apache Lucene er et høyytelses-, fullfunksjons- tekstsøkemotorbibliotek skrevet i Java.
SemanticVectors. Semantiske vektorindekser, skapt ved å påføre en tilfeldig projeksjonsalgoritme til termin-dokumentmatriser opprettet ved bruk av Apache Lucene.
Text to Matrix Generator (TMG)Arkivert 10. juli 2020 hos Wayback Machine. MATLAB verktøykasse som kan brukes til ulike oppgaver i tekst mining, spesifikt 1) indeksering, 2) gjenfinning, 3) dimensionalitetsreduksjon, 4) clustering og 5) klassifisering. Mesteparten av TMG er skrevet i MATLAB og deler i Perl. Den inneholder implementeringer av LSI, gruppert LSI, NMF, samt andre metoder.
SenseClusters, En open source pakke som støtter kontekst og ord-clustering ved hjelp av latent semantisk analyse og ord co-forekomstmatriser.
G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (Artikkelen hvor vektorrom modellen ble presentert (Engelsk))