벡터 공간 모델(―空間―, 영어: vector space model) 또는 단어 벡터 모델(單語―, 영어: term vector model)은 텍스트 문서를 단어 색인 등의 식별자로 구성된 벡터로 표현하는 대수적 모델이다. 정보 검색, 정보 필터링 및 검색 엔진의 색인이나 연관도 순위에 사용된다. 이 모델이 최초로 적용된 것은 코넬 대학교의 게오르그 셀튼 교수 연구실의 SMART 정보 검색 시스템이었다.
정의
문서와 질의는 다음과 같이 벡터로 표현된다.
각각의 차원은 개별 단어에 대응된다. 어떤 단어가 문서에 포함되면, 해당 단어는 0이 아닌 벡터값을 갖는다. 단어 가중치라고도 불리는 이 값을 산출하는 방법에는 여러 가지가 있다. 가장 널리 알려진 방식은 TF-IDF 방식이다.(아래 사례 항목 참조)
벡터 공간 모델에서 단어(term)의 의미는 그 적용 대상에 따라 달라진다. 일반적으로는 하나의 단어(word)나 키워드, 또는 좀더 긴 구를 의미한다. 벡터의 차원의 크기는 말뭉치에 포함된 단어의 개수와 같다.
벡터 연산은 문서들간의 유사성을 비교하는 데에도 사용될 수 있다.
응용
키워드 검색에서 사용되는 문서의 연관도는 문서 유사도 이론으로 계산될 수 있다. 문서 유사도 이론에서 문서 유사도는 문서 벡터간의 각도의 편차를 이용하여 산출된다.
실제 적용시에는, 문서 벡터간의 각도 자체보다는 다음과 같이 각도의 코사인값을 이용하는 것이 더 간단하다.
는 문서 벡터(오른쪽 그림의 d2)와 질의 벡터(그림의 q)의 교차점(스칼라곱)에 해당하며, 는 벡터 d2의 노름, 는 벡터 q의 노름이다. 벡터의 노름의 다음과 같이 계산된다.
벡터의 모든 요소는 음수가 아닌 값이므로, 코사인값이 0인 경우 질의 벡터와 문서 벡터가 직교하며 겹치는 부분이 전혀 없음(서로 동일하게 포함하고 있는 단어가 하나도 없음)을 의미한다. 벡터간 각도의 코사인값을 이용한 유사도 계산에 대해서는 코사인 유사도를 참조하라.
사례: TF-IDF 가중치
제라드 솔튼, 웡(Wong), 그리고 양(Yang)의 연구[1]에서 제안된 전통적 벡터 공간 모델에서, 문서내 특정 단어의 가중치는 지역 매개변수와 전역 매개변수의 곱으로 계산된다. 이러한 모델을 단어 빈도-역 문서 빈도 모델이라 한다. 문서 d의 가중치 벡터는 이며, 여기서 는 다음과 같다.
그리고,
는 문서 d에서 단어 t의 빈도(지역 매개변수),
는 역 문서 빈도(전역 매개변수)이다. 는 문서 집합내 전체 문서의 개수이며, 는 단어 t를 포함하는 문서의 개수이다.
문서 dj와 질의 q의 코사인 유사도를 이용하여 다음과 같이 문서간 유사도를 계산할 수 있다.
Text to Matrix Generator (TMG)Archived 2020년 7월 10일 - 웨이백 머신: 다음과 같은 다양한 텍스트 마이닝 작업에 사용될 수 있는 MATLAB 툴박스 - 1)색인, 2)검색, 3)차원 절감, 4)클러스터링, 5)분류. TMG의 대부분은 MATLAB으로 작성되었으며 일부는 Perl로 작성되었다. LSI, clustered LSI, NMF 및 다른 방식들을 포함한다.