Reconeixement d'entitats nomenades

Esquema d'Extracció d'informació.

El reconeixement d'entitats nomenades (amb acrònim anglès NER) (també conegut com a identificació d'entitats (nomenades), fragmentació d'entitats i extracció d'entitats) és una subtasca d'extracció d'informació que pretén localitzar i classificar les entitats amb nom esmentades en un text no estructurat en categories predefinides, com ara persona. noms, organitzacions, ubicacions, codis mèdics, expressions de temps, quantitats, valors monetaris, percentatges, etc.

Els sistemes NER d'última generació per a l'anglès produeixen un rendiment gairebé humà. Per exemple, el millor sistema que va entrar al MUC-7 va obtenir un 93,39% de la mesura F, mentre que els anotadors humans van obtenir un 97,60% i un 96,95%.[1][2]

Les plataformes NER notables inclouen:

  • GATE admet NER en molts idiomes i dominis de manera immediata, utilitzable mitjançant una interfície gràfica i una API de Java.
  • L'OpenNLP inclou el reconeixement d'entitats amb nom basat en regles i estadístic.
  • SpaCy inclou un NER estadístic ràpid i un visualitzador d'entitats anomenades de codi obert.

Malgrat els alts números de F1 reportats al conjunt de dades MUC-7, el problema del reconeixement d'entitats amb nom està lluny d'haver-se resolt. Els esforços principals es dirigeixen a reduir el treball d'anotacions mitjançant l'ús d'aprenentatge semisupervisat,[3][4] un rendiment robust en els dominis [5][6] i l'escalada a tipus d'entitats de gran fi.[7][8] En els darrers anys, molts projectes s'han convertit en crowdsourcing, que és una solució prometedora per obtenir judicis humans agregats d'alta qualitat per als enfocaments d'aprenentatge automàtic supervisat i semisupervisat de NER.[9] Una altra tasca difícil és dissenyar models per tractar contextos lingüísticament complexos com Twitter i consultes de cerca.[10]

Hi ha alguns investigadors que van fer algunes comparacions sobre els rendiments NER de diferents models estadístics com ara HMM (model de Markov ocult), ME (entropia màxima) i CRF (camps aleatoris condicionals) i conjunts de característiques.[11] I alguns investigadors van proposar recentment un model d'aprenentatge semisupervisat basat en gràfics per a tasques NER específiques del llenguatge.[12]

Referències

  1. Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998 PDF
  2. MUC-07 Proceedings (Named Entity Tasks)
  3. "Phrase clustering for discriminative learning" a Annual Meeting of the ACL and IJCNLP.  
  4. Turian, J., Ratinov, L., & Bengio, Y. (2010, July). Word representations: a simple and general method for semi-supervised learning. In Proceeding of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 384–394). Association for Computational Linguistics. PDF
  5. Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147–155). Association for Computational Linguistics.
  6. «Frustratingly Easy Domain Adaptation.» (en anglès). Arxivat de l'original el 2010-06-13. [Consulta: 5 abril 2012].
  7. Sekine's Extended Named Entity Hierarchy. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  8. Fine-Grained Named Entity Recognition Using Conditional Random Fields for Question Answering.
  9. Web 2.0-based crowdsourcing for high-quality gold standard development in clinical Natural Language Processing
  10. "A Two-Step Named Entity Recognizer for Open-Domain Search Queries" a IJCNLP.  
  11. Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Proceeding of International Conference of Language Processing and Intelligent Information Systems. M.A. Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, pp. 57–68
  12. Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model. In Proceedings of SIGHAN workshop in ACL-IJCNLP. 2015.

Referències