일반화 벡터 공간 모델(一般化―空間―, 영어: generalized vector space model)은 정보 검색에서 사용되는 벡터 공간 모델을 일반화한 모델이다. 웡 등은 그의 연구[1]에서 벡터 공간 모델의 상호 직교성 가정이 갖는 문제점을 분석하였으며, 기존의 모델을 보완하는 일반화 벡터 공간 모델을 제안하였다.
정의
일반화 벡터 공간 모델은 상호 직교성 가정을 버리고 단어간 상관도 개념을 도입하였다. 이에 각 단어 벡터 ti가 2n개의 벡터 mr의 선형 조합으로 표현되는 새로운 공간 개념이 사용된다. 여기서 r = 1...2n이다.
문서 dk와 질의 q의 유사도는 다음과 같이 계산된다.
ti와 tj는 2n차원 공간의 벡터이다.
단어 상관도 는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.
의미 정보의 처리
전체 단어 일치 방식을 제외했을 때, 정보 검색 모델에서 단어간 관련성을 고려하는 방향에는 크게 다음의 두 가지가 있다.
- 단어간의 의미적 상관도를 계산하는 방식
- 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식
최근 차차로니스에 의한 발표된 논문[2]에서 첫 번째 방식에 대해 자세히 다루었다. 이 논문에서는 의미적 관련성(semantic relatedness, SR)을 워드넷과 같은 유의어 사전(O)을 이용해 계산했다. 밀도(compactness, SCM)에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, SPE)에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다.
유사도 공식에 포함된 값은 다음과 같이 계산되었다.
si와 sj는 각각 단어 ti와 tj의 의미이며, 를 최대화하는 값으로 결정된다.
각주