개체명 인식

개체명 인식(named-entity recognition, NER, 다른 이름: entity identification, entity chunking, entity extraction)은 비정형 텍스트개체명 언급을 인명, 단체, 장소, 의학 코드, 시간 표현, 양, 금전적 가치, 퍼센트 등 미리 정의된 분류로 위치시키고 분류시키는 정보 추출의 하위 태스크이다.

NER 시스템의 대부분의 연구는 주해가 없는 텍스트 블록을 취하는 것으로 구조화되었으며 한 예로 다음과 같다:

Jim bought 300 shares of Acme Corp. in 2006.

개체명을 강조하는, 주해 없는 텍스트 블록을 만든다:

[Jim]Person bought 300 shares of [Acme Corp.]Organization in [2006]Time.

이 예에서 한 토큰으로 구성된 인명, 두 토큰으로 구성된 사명과 시간 표현이 감지되고 분류되었다.

영어를 위한 최신 NER 시스템은 인간에 근접한 성능을 낸다. 이를테면 MUC-7에 진입한 최고의 시스템은 F-measure 기준 93.39%을 받았으며 인간 주석자는 97.60%과 96.95%점을 받았다.[1][2]

같이 보기

각주

  1. Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998 PDF
  2. MUC-07 Proceedings (Named Entity Tasks)