말뭉치 언어학(영어: Corpus Linguistics)은 '실제 언어' 혹은 실제 언어의 샘플을 이용하여 언어를 공부하는 응용언어학의 한 분야이다. 말뭉치(코퍼스)란, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다.
조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념이 있다. 최근의 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, “일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”를 가리키는 개념으로 사용하는 것이 일반적이다. 초기에는 수작업으로 이루어졌으나 컴퓨터의 발달로 지금은 많이 자동화되었으며, 전산언어학의 도움을 많이 받고 있다.
촘스키의 관점에서는, 실제 언어는 언어수행상의 오류로 가득하기 때문에 언어학을 제대로 연구하기 위해서는 잘 제어된 환경에서 이루어진 언어를 다룰 필요가 있다고 하였는데, 말뭉치 언어학은 이러한 관점에 정면으로 반하고 있는 방법론이다. 촘스키가 다루는 정제된 환경에서는 언어에서 화자에 대한 정보를 아무것도 찾아낼 수 없다는 것이다. 말뭉치 언어학에서는 언어능력(competence)과 언어수행(performance)으로 나누는 촘스키식 이분법도 거부한다. 대신 말뭉치에 다가갈 수 있는 최소한의 인터페이스만 있으면 실제 언어를 통해 언어 현상의 본질에 다가갈 수 있다고 본다.
역사
현대 말뭉치 언어학의 기점이라 할 만한 것은 브라운 말뭉치를 구축하고 연구한 현대 '미국 영어의 전산 분석'(1967)[1]의 출간이다. 브라운 말뭉치는 다양한 소스에서 100만 어절을 선택한 현대 미국영어의 한 표본이다. 그 연구에서 저자들은 언어학, 교육학, 통계학, 사회학적인 방법론을 동원해 다양한 사례를 제시했다. 그보다 좀 더 앞선 연구를 찾아본다면 '영어 사용역의 기술에 대하여'(1960)[2]를 들 수 있겠다.
얼마 지나지 않아 '아메리칸 헤리티지 영어사전'(The American Heritage Dictionary of the English Language, AHD)의 출간에 말뭉치 언어학적 방법론이 일부 적용되어 AHD의 규범사전적인 특성에도 불구하고 기술사전다운 정보가 상당수 추가되었다. 이 작업에 브라운 말뭉치를 만든 헨리 쿠체라가 참여하였다. 영국에서는 하퍼 콜린스 출판사가 '영어 뱅크'의 보강작업에 참여하여 거기서 얻은 결과물을 활용해 만든 '콜린스 코빌드 영어사전'이 대표적이다. 롱맨은 자사의 대표적인 문법서를 만들면서 말뭉치를 활용했다.[3]
브라운 말뭉치(Brown Corpus, 1963-4, 미국) : 1960년대 미국 문어 : 100만 어절[4]
LOB 말뭉치(Lancaster-Oslo/Bregen Corpus, 1970-78, 영국/노르웨이) : 1960년대 영국 문어 : 100만 어절 : 브라운 말뭉치와의 비교연구에 활용
런던-룬트 말뭉치(London-Lund Corpus, 1975-88, 영국/스웨덴) : 1960년대 영국 구어 : 50만 어절 : 영어 사용례 말뭉치(Survey of English Usage Corpus)의 구어부분을 주로 주석
헬싱키 말뭉치(Helsinki Corpus of English Text, 1984-, 핀란드) : 750년-1720년 사이의 문어와 1970년대 구어 전사 방언 : 공시 말뭉치 160만 어절, 방언 말뭉치 40만 어절
랭카스터 말뭉치(Lancaster/IBM Spoken English Corpus, 1984-87, 영국) : 1980년대 영국 구어 : 5만 어절 : 음성 합성 시스템 개발을 위해 구축된 말뭉치로 구두점이나 운율전사와 같은 특수한 주석이 달려 있음
국제 영어 말뭉치(International Corpus of English, 1990-, 다국적) : 1990년대 초반의 다양한 문어 : 2000만 어절
BNC(British National Corpus, 1991-94, 영국) : 1960년대 이후의 현대 영국 영어 : 1억 어절 : 여러 사전 출판사와 연구기관이 연대한 최대 규모의 영어 말뭉치
영어 뱅크(The Bank of English, 1980-, 영국) : 1990년대 이후의 영국 영어 : 33만 어절 이상 : 30% 정도의 구어를 포함하고 있으며 콜린스 코빌드가 주로 활용하고 있음
유럽 다국어 말뭉치(European Corpus Initiative Multilingual Corpus I, 1992-93, 유럽) : 현대 유럽어 : 1억 어절 : 유럽 언어들을 위주로 한 다국어 말뭉치
COCA(Corpus of Contemporary American English, 1990-, 미국) : 현대 미국어 : 4억 어절[5]
처음으로 구어를 전사한 말뭉치는 100만 어절 규모의 몬트리올 프랑스어 프로젝트(The Montreal French Project, 1971)였다. 또한 이런 살아있는 언어에 대한 말뭉치뿐 아니라 히브리어 바이블에 관한 말뭉치(The Andersen-Forbes database)도 있다. 또 주석의 수준에 따라 말뭉치가 다양하다.[6]
한국에서의 역사
한국에서는 1988년부터 구축되어 온 연세대학교의 연세 한국어 말뭉치가 대표적이다. 한국과학기술원, 고려대학교, 국립국어연구원 등에서도 본격적으로 말뭉치를 구축해 오고 있으며, 1998년부터 ‘21세기 세종 계획:국어정보화 추진 중장기 사업’의 일환으로 우리나라에서도 본격적으로 국가 말뭉치가 구축되기 시작하였다.
「연세 한국어 사전」을 편찬하는 과정에서는, 1960년대로부터 1990년대 중반까지의 국내의 출판물과 일부의 구어 등을 중심으로 하여, 다양한 주제와 형태의 글을 전산 입력하였고(이것을 '연세 말뭉치'라 한다), 이 자료에서 단어가 실제로 쓰인 용례를 찾아서 의미와 용법을 알아내어 사전에 기술한 것이다.
연세 한국어 말뭉치(1987-) : 1960년대 이후의 한국어 : 4200만 어절 : 연세한국어사전을 만드는 데 활용 : 연세대학교 언어정보연구원
고려대학교 한국어 말모둠(1995) : 1970-90년대 한국어 : 8억4000만 어절 : 고려대학교 민족문화연구소
국립국어원 말뭉치(1992-) : 1400년대 이후의 한국어 : 6800만 어절 : 표준국어대사전을 만드는 데 활용 : 국립국어원
말뭉치의 요건과 종류
문서를 대량으로 모은다고 해서 모두 말뭉치가 되는 것은 아니며 말뭉치는 몇 가지 요건을 갖추어야 한다.[7]
텍스트 수집이나 입력 과정에서 원래의 내용이나 형태의 누락이 있어서는 안된다. 즉 원형을 유지하고 있다는 보장이 필요하다.
언어의 다양한 변이를 담아내야 한다. 즉 언어의 특성을 잘 반영할 수 있는 구성으로 조합되어야 한다.
해당 언어의 통계적 대표성을 지녀야 한다. 즉 유의미한 규모로 확보되어야 한다.
말뭉치가 지녀야 하는 두 가지 특성은 '대표성'과 '균형성'이다. 표본이 모집단을 통계적으로 대표할 수 있는가가 보장되지 못하면 그 표본으로 하는 연구는 하나마나한 것이 된다. 말뭉치의 대표성은 이 통계적 대표성을 의미한다. 그렇다고 해서 대표성을 너무 단순하게 크기의 문제로 환원해도 곤란하다. 영어의 경우 고빈도어 3000어 정도면 일상회화의 95%가 해결될 정도로 어휘가 심하게 편중되어 있다. 하지만 적게 사용된다고 해서 그것이 덜 중요한 단어라고 할 수는 없다. 말뭉치의 균형성은 언어의 미묘한 면을 담고 있는 5%에 대한 배려를 말한다. 즉 다수가 가지는 대표성 못지않게 소수를 배려하는 균형성이 필요한 것이다. 이를 위해서는 범주와 유형에 따른 세심한 구분이 필요하다. 픽션/논픽션, 구어/문어, 방송, 논문, 운문/산문, 공식/비공식, 작가의 연령/성별/국적/계급 등 매우 다양한 기준을 적용할 수 있다.
말뭉치에는 그 특성에 따라 여러 종류가 있다.
용도에 따라 : 균형 말뭉치(balanced/core corpus), 학습 말뭉치(training corpus), 학습자 말뭉치(learner's corpus), 방언 말뭉치(dialect corpus)
가공 정도에 따라 : 원시 말뭉치(raw corpus), 주석 말뭉치(tagged/annotated corpus), 분석 말뭉치(analyzed corpus)
시대에 따라 : 공시적 말뭉치(synchronic corpus), 역사 말뭉치(historical/diachronic corpus)
변화여부에 따라 : 정적 말뭉치(static corpus), 동적 말뭉치(dynamic/monitor corpus)[8]
균형말뭉치는 코퍼스(말뭉치)의 모집단 구성, 표준화 방법 등을 고려하여 구축해야 한다.
주석말뭉치는 형태 정보 또는 통사 정보 또는 의미 정보 등을 포함하는 코퍼스(말뭉치)이다.
참고로 21세기 세종계획의 결과로 구축된 말뭉치 중에는 현대국어 구어 전사 말뭉치, 한영/한일 병렬 말뭉치, 북한 및 해외 한국어 말뭉치, 역사 자료 말뭉치, 전문 용어 말뭉치 등의 다양한 특수 말뭉치가 포함되어 있다.[9]
말뭉치의 구축
한국어 균형사전을 만들기 위해서는 한국어의 총체를 반영할 수 있도록 말뭉치를 골고루 구성해야 하지만, 만약 경제용어사전을 만든다고 생각하면 경제 분야의 문서들로만 말뭉치를 만들면 충분하다.
말뭉치를 구축할 때 처음 발생하는 문제는 어떤 문서에서 어느 정도의 양을 고를 것인가이다. 예를 들어 연세한국어사전을 만들 때는 일반인의 독서실태를 조사하여 신문 33%, 잡지 20%, 문학 18%, 취미/교양 10%, 수기/전기/실화 9%, 교과서 5%로 비중을 정했다. 이는 독서량이 어휘사용/해독량과 비례할 것이라는 가정에 따른 것이다. 다른 가정을 세운다면 또 다른 결과가 나올 것이다.[10]
세종계획 말뭉치는 연세 말뭉치에 비해 규모도 방대하고 준구어 텍스트까지 포함하는 등 좀 더 범용으로 만들어졌다. 하지만 전체적인 장르 간 비율 등을 보면 연세 말뭉치와 많이 다르다고 보긴 어렵다. 고려대학교 한국어 말모둠은 세종계획 말뭉치를 구축한 김흥규와 강범모가 만든 것이라 전체적인 체계는 비슷하나 비율이 좀 다르다. 총 1008만 어절 중에서 (준)구어 11.7%, 신문 20.7%, 잡지 9.8%, 책-정보 33.5%, 책-상상 21%, 기타 3.3%이다.[11][12]
말뭉치를 구축할 때는 1차 설계, 구축, 분석, 2차 설계, 구축, 분석 ... 이렇게 순환적으로 검토하면서 진행한다. 실험적으로 구축한 부분 말뭉치가 적당한지 검증을 해서 다시 2차 말뭉치를 구축하는 것이다. 이를 기존에 알려진 사실들과 대조하여 검증이 가능하다. 한국어의 품사는 대략 어떤 비율을 가진다. 고빈도어의 사용 빈도 등이 알려져 있기 때문이다. 좀 더 상세한 검증도 필요하다. 예를 들어 감탄사나 선어말 어미, 대명사의 사용 빈도는 장르에 따라 변화가 있다. 이런 특성에 기대어 말뭉치가 균형성을 가지게 되었는지, 아니면 구축자의 의도에 맞게 만들어졌는지를 판단해볼 수 있다.
말뭉치는 클수록 좋겠지만, 크면 그만큼 다루기 힘들어지고 또 수집하기도 어렵다. 따라서 신뢰도를 어디까지 가져갈 것인가에 맞춰 크기를 결정하면 된다. 예전에는 어떻게 대표성을 유지하면서 말뭉치의 크기를 줄일 것인가를 고민했다. 컴퓨터의 성능이 그리 좋지 못했기 때문이다. 이 문제는 여전히 유효하고, 그래서 글의 앞쪽 일부만을 취한다거나 하는 방법들도 있었지만 지금은 그렇게까지 조절하진 않아도 기술의 발달로 다량의 문서를 다룰 수 있다.
말뭉치 언어학의 연구방법으로 주석달기, 추상화, 분석의 세 가지를 얘기한다.[13]주석달기(annotation)는 텍스트에 구조를 부여하는 것이다. 주석은 품사 주석, 구문 주석 등 목적에 따라 다양하게 달 수 있다. 추상화(abstraction)는 분석의 틀을 마련하는 것이다. 언어학 이론과 말뭉치를 함께 고찰하여 분석하고자 하는 목적에 맞는 틀을 고안한다. 분석(analysis)은 통계적으로 자료를 재조합하여 해석하는 것이다.
[14]
말뭉치의 활용
말뭉치 분석으로 얻는 가장 유용한 정보는 빈도이다. 특정 어휘, 특정 환경이 말뭉치 내에서 얼마나 많이 나왔느냐를 관찰하면 이후 연구의 방향을 잡을 수 있기 때문이다. 또 언어학적 가설을 검증할 때 말뭉치 내에서의 빈도는 강력한 증거가 된다. 이 빈도는 단순하게 수치만을 볼 수도 있으나 적절한 비교를 위해서는 정규화 할 필요가 있다. 그 과정에서 통계적 방법론이 필요하게 되며 주로 활용되는 방법은 카이제곱 검증(chi-squared test)이다.
언어 연구
말뭉치를 연구하면서 연어도 좀 더 정량적으로 연구할 수 있게 되었다. 단순한 공기관계인 것인지 아니면 정말 연어관계에 있는 것인지를 확인하기 위해서는 상호정보량(mutual information)이나 표준 점수(Z-score) 등의 계산이 유용하다. 상호정보량은 A와 B가 인접하는 결합사건일 때의 확률과 그렇지 않은 독립사건일 때의 확률을 비교한 값이다. 이런 기준을 통해 선택된 연어는 상당수 사전에 실리고 있다.
말뭉치에서 고빈도로 발견된다고 해서 연어로 볼 수는 없다. 연어의 판별 기준은 A+B일 때 A'+B이거나 A+B'의 의미가 되어야 한다는 것이다. 따라서 말뭉치에서 제시된 후보를 언어학자가 눈으로 살펴서 후보의 의미가 얼마나 투명한가를 판별해야 한다. 반대로 언어학자에 의해 선택된 연어가 충분한 공기성을 가지는가를 파악하기 위해서 말뭉치를 활용할 수 있다. 연어핵에서 2-3어절 정도의 거리에 놓인 연어변까지 자동으로 조사하는 것은 말뭉치의 도움이 없이는 현실적으로 거의 불가능한 작업이다. 또 연어는 활용에 제약이 있거나 아예 특수한 형태로만 사용되기 때문에 이를 기술할 때도 말뭉치를 참조하지 않으면 안 된다.
변이 연구
말뭉치는 목적에 따라 다르게 구축할 수 있다. 예를 들어 구어 말뭉치를 따로 구축하면 문어와 대비되는 구어의 사용 양상을 찾아볼 수 있다. 마찬가지로 공적인 문서와 사적인 문서를 구분해두면 특정 어휘나 스타일이 다른 영역에서 어떻게 사용되는가를 계량적으로 파악할 수 있다. 성, 인종, 국가, 계급 등 적절한 분류만 있다면 얼마든지 분야별 말뭉치를 만들 수 있다. 이러한 접근은 사회언어학, 심리언어학 등에서 특히 유용하다.
역사 언어 연구
대개의 말뭉치는 현대어 위주로 구축되어 있지만 역사 말뭉치를 구축하면 통시적 연구가 가능해진다. 특정 어휘가 어떤 식으로 변해왔는가를 추적할 수도 있고, 그 시대 어휘만을 다룬 역사 사전도 만들 수 있다. 물론 역사 말뭉치는 구축이 어렵다. 그리고 한국어의 경우 한자와 한글이 뒤섞여 쓰인데다가 곡용이나 활용태가 현대어와 많이 다르다. 그리고 표기의 일관성이 보장되지 않아 수많은 이표기를 함께 처리해야 하는 불편함이 있다. 사실 역사 말뭉치는 문서 수가 한정적이므로 균형을 갖춰 구축하는 것 자체가 어려운 면이 있다. 그럼에도 불구하고 역사 말뭉치는 역사 언어 연구의 필수 불가결한 도구이자 대상이 되어가는 중이다.
비교 언어학
2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치(parallel corpus, 병렬 코퍼스)라 부른다. 병렬말뭉치는 문장 대 문장 혹은 문단 대 문단으로 구축되어 있다. 병렬말뭉치는 언어 간의 대조 분석, 번역 연구에 활용된다.
최초로 구축된 병렬말뭉치 중 하나인 영어-노르웨이어 병렬말뭉치는 3 가지 목적을 가지고 만들어졌다.
(1) 동일 장르 간 영어권과 노르웨이어권의 비교
(2) 영어가 노르웨이어로 번역되면서 어떤 변화가 생기는가 혹은 그 반대의 고찰
(3) 노르웨이어로 쓰인 문학과 노르웨이어로 번역된 문학의 비교.
병렬 말뭉치를 구축할 때의 가장 큰 주의점은 되도록 직역한 것 위주로 모으는 것이 좋으며 원문과 번역문의 표시를 명확하게 해야 한다는 것이다. 병렬말뭉치가 구축되어 있으면 이국어 사전을 만드는 데 도움이 된다. 영영사전을 번역하여 영한사전을 만드는 것과 병렬말뭉치를 활용해 영한사전을 만드는 것은 근본적인 차이가 있기 때문이다. 후자 쪽이 더욱 기술적인 사전이 될 수밖에 없고 실제 언어 생활에 가까운 형태로 나오게 된다.
언어 교육
말뭉치에서 수많은 용례가 쏟아지는 것만으로도 사실 충분한 언어 교육의 효과가 있다. 이런 관점으로 만들어진 방법론이 CALL(computer assisted language learning)이고 교사는 이러한 시스템을 통해 학습자를 지도할 수 있다. 찾고자 하는 용례를 검색하는 방법을 가르쳐주고 학습자가 그것을 찾아내도록 도와주는 과정 속에서 학습자는 배우고자 한 어휘/문장과 함께 그 주변의 어휘/문장까지 함께 접하게 된다. 여러 용례 안에는 다양한 변이와 주변 환경이 함께 제시되기 때문에 읽어나가는 과정에서 복합적인 이해를 할 수 있게 되는 것이다. 여기서는 어떤 예문이 좋은 예문인가 혹은 학습자의 수준에 맞춰 예문을 제시하려면 어떤 기준이 필요한가 등이 함께 고민되어야 한다.
사전 편찬
사전 편찬은 언어학 정보를 집대성하는 과정이라고 해도 과언이 아니다. 따라서 말뭉치를 토대로 한 언어 연구의 결과물은 사전 편찬과정에 반영되기 마련이고 대규모의 말뭉치는 사전 편찬과 함께 발달되었다. 그리고 점차 실제 쓰이는 언어를 반영하는 기술적 측면이 강조되고 있으므로 말뭉치의 활용도는 절대적이다. 연어 연구에서와 마찬가지로 표제어를 선정할 때 뿐 아니라 예문을 고르고 의미 구분의 기준을 잡을 때에도 매번 말뭉치를 참고하지 않으면 안 된다.
사전 편찬의 모든 영역에 있어서 말뭉치의 활용이 필요하지만 몇 가지 나열해보면 연관 복합어 찾기, 용언의 활용태 찾기, 특수한 영역 내 사용 양상 파악, 격틀에 맞는 용례 검색 등 여러 가지가 있다.
말뭉치의 한계
이 문단의 내용은 출처가 분명하지 않습니다. 이 문단을 편집하여, 신뢰할 수 있는 출처를 표기해 주세요. 검증되지 않은 내용은 삭제될 수도 있습니다. 내용에 대한 의견은 토론 문서에서 나누어 주세요.(2024년 11월)
사전편찬이나 언어 연구에서 모든 것이 말뭉치만으로 해결되는 것은 아니다. 일단 말뭉치로 구축하기 매우 힘든 언어현상들이 있다. 예를 들어 방언 화자의 구어 말뭉치를 전사하려면 엄청난 노력이 들어갈 수밖에 없고, 학생과 일반인들이 핸드폰으로 주고받는 문자메시지의 언어 변화를 추적하는 것은 개인정보 문제라는 일차적인 장벽이 존재한다. 이런 현상들을 기술하는 데에는 말뭉치까지 이용하기보다는 좀 더 적은 샘플링을 통한 사례 연구 쪽이 더 적합할 수도 있다.
비용 문제도 있다. 범용사전을 만들 수 있을 정도의 대규모 균형 말뭉치를 구축하는 것은 그 자체로 상당히 큰 비용을 요구하는 작업이다. 적어도 한국에서 사전을 출간하던 출판사의 규모에서 하긴 어렵다. 게다가 비교적 높은 수준의 자연어 처리 능력과 데이터베이스 관리 능력이 필요하고, 많은 경우 저작권 문제가 걸리기 때문에 국가나 학계 이외의 곳에서 진행하기에는 어려운 면이 있다. 그리고 말뭉치에 정교한 주석을 다는 일은 문서 수집 못지않게 방대한 일이므로 이 역시 대규모 프로젝트가 마련되지 않으면 하기 어렵다.
↑그 외에도 Kolhapur(Indian English), Wellington (New Zealand English), Australian Corpus of English (Australian English), the Frown Corpus (early 1990s American English), and the FLOB Corpus (1990s British English) 등 다수가 있다.
↑「국어정보학입문」(서상규, 한영균 공저, 태학사, 1999년)에서 발췌 : 말뭉치의 개념은 20세기 전반 미국의 구조주의적 언어학에서부터 있었다. 실증적 자료를 중시하던 당시 언어학의 풍토에서 실제 말이나 글로 발화되거나 표현된 언어 자료는 언어 연구의 전제 조건이었고, 실제 사용된 언어 자료를 그대로 모아 놓은 말뭉치는 언어 연구의 기초로 여겨졌던 것이다. 1963년부터 2년 간에 걸쳐 100만 어절로 구축된 브라운 말뭉치(Brown Corpus)를 시초로 하여 컴퓨터를 이용한 구축이 본격화되었고, 1990년대에는 1억 어절 이상의 영국 국가 말뭉치(BNC:British National Corpus)가 구축되기에 이르게 되었다.
↑김흥규, 강범모, 홍정하(2007), 21세기 세종계획 현대국어 기초말뭉치: 성과와 전망, 2007년도 제19회 한글 및 한국어 정보처리 학술대회 논문집
↑세종계획 말뭉치와 연세 말뭉치가 질적으로 다른 부분은 바로 세종계획 말뭉치에서 본격적인 주석달기가 시도되었다는 점이다. 먼저 의미주석은 단어 간 중의성을 해소해준다는 점에서 중요하다. 사과(apple)와 사과(apology)를 미리 구분해주는 것이다. 이것은 통계정보의 정확성 확보를 위해 피할 수 없는 절차이나 무척이나 어려운 작업이다. 자동으로도 일부 가능하지만 거의 전수조사를 하지 않으면 안된다.
↑Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery, 5: 307-340. 2001.
↑구문주석은 문장의 형태를 분석하여 해당 어휘가 어떤 성분으로 사용되었는지를 보여주는 작업이다. 구문주석 역시 일부분 자동화가 되었고 기계학습(machine learning) 등을 통해 성능이 향상되고 있지만 높은 정확도를 갖추기 위해서는 수작업을 피할 수 없다. 또 수작업으로 축적된 기초 자료가 없으면 기계학습이 이루어질 수 없다. 구문주석이 되어 있으면 격틀을 포함하여 용언을 검색한다거나 하는 일이 가능해지기 때문에 유사한 유형을 가진 문장들을 모아서 볼 수 있게 된다.