Análisis semántico

Texto con título y párrafos
Texto informático. El análisis semántico puede resumir un texto, determinar de qué tema trata (historia, psicología, matemáticas...) y relacionarlo con otros textos sobre el mismo tema.

El análisis semántico, también denominado relación semántica, es el uso de ontologías (en el sentido informático de este término, no en el filosófico) para analizar el contenido de textos almacenados en un soporte informático, como Internet. Este conjunto de procedimientos informáticos combina minería de textos y tecnologías de Web Semántica como Marco de Descripción de Recursos (RDF por sus siglas en inglés). El análisis semántico mide la relación de diferentes conceptos ontológicos.

Varios grupos de investigación académica tienen proyectos activos en esta área. Uno de ellos es el Centro Kno.e.sis de la Universidad Estatal de Wright.

Historia

En 1996 se produjo un hito importante en los inicios del análisis semántico, aunque la progresión histórica de estos algoritmos es, en buena parte, subjetiva. En la publicación de su estudio fundamental, Philip Resnik estableció que las computadoras tienen la capacidad de emular el juicio humano.

Al abarcar las publicaciones de múltiples revistas, las mejoras en la precisión de los cálculos analíticos semánticos generales pretendían revolucionar el campo. Sin embargo, la falta de una terminología estándar a finales de la década de 1990 provocó mucha falta de comunicación. Esto llevó a Budanitsky y Hirst a estandarizar el tema en 2006 con un resumen que también estableció un marco para el análisis moderno de ortografía y gramática.[1]

En los primeros días del análisis semántico, era difícil obtener bases de conocimiento suficientemente grandes y fiables. En 2006, Strube y Ponzetto demostraron que Wikipedia podía utilizarse en cálculos de análisis semántico.[2]​ El uso de una gran base de conocimientos como Wikipedia permite aumentar tanto la precisión como la aplicabilidad del análisis semántico.

Métodos

Dada la naturaleza subjetiva del campo, los diferentes métodos utilizados en el análisis semántico dependen del dominio de aplicación. Ningún método singular se considera correcto; sin embargo, uno de los métodos más aplicables y eficaces es el análisis semántico explícito (ESA).[3]​ El ESA fue desarrollado por Evgeniy Gabrilovich y Shaul Markovitch a finales de la década de 2000.[4]​ Utiliza técnicas de aprendizaje automático para crear un intérprete semántico que extrae fragmentos de texto de artículos y los ordena en una lista según su relación con el texto circundante.

El análisis semántico latente (LSA) es otro método habitual que no utiliza ontologías; solo considera el texto en el espacio de entrada.

Aplicaciones

La aplicación de métodos de análisis semántico generalmente agiliza los procesos organizacionales de cualquier sistema de gestión del conocimiento. Las bibliotecas académicas suelen utilizar una aplicación de dominio específico para crear un sistema organizativo más eficiente. Al clasificar las publicaciones científicas utilizando la semántica y Wikipedia, los investigadores ayudan a las personas a encontrar recursos más rápido. Los motores de búsqueda como Semantic Scholar brindan acceso organizado a millones de artículos.

Véase también

Referencias

  1. Budanitsky, Alexander, and Graeme Hirst. "Evaluating WordNet-Based Measures of Lexical Semantic Relatedness." Comput. Linguist. 32, no. 1 (March 2006): 13–47. doi 10.1162/coli.2006.32.1.13
  2. Strube, Michael, and Simone Paolo Ponzetto. "WikiRelate! Computing Semantic Relatedness Using Wikipedia. In Proceedings of the 21st National Conference on Artificial Intelligence, Volume 2, 1419–1424. AAAI'06. Boston, Massachusetts: AAAI Press, 2006.
  3. Z. Zhang, A. L. Gentile, and F. Ciravegna, "Recent advances in methods of lexical semantic relatedness – a survey", Natural Language Engineering, vol. 19, no. 04, pp. 411–479, Oct. 2013.
  4. Evgeniy Gabrilovich and Shaul Markovitch. 2007. "Computing semantic relatedness using Wikipedia-based explicit semantic analysis". In IJcAI, 1606–1611. Retrieved October 9, 2016.

Enlaces externos