N-grama

Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos.

La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente. Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas sobre la base de distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras. Algunos sistemas procesan las cadenas de texto eliminando los espacios. Otros no. En casi todos los casos, los signos de puntuación se eliminan durante el preproceso.

Se puede usar gramas para casi todos los ámbitos. Por ejemplo, se han usado n-gramas para extraer características comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué parte de la Tierra pertenece una imagen dada.

Para ciertos valores de n los n-gramas tienen nombres especiales. Por ejemplo:

Aplicaciones

Modelo de n-grama

Un modelo de n-grama es un tipo de modelo probabilístico que permite hacer una predicción estadística del próximo elemento de cierta secuencia de elementos sucedida hasta el momento. Un modelo de n-grama puede ser definido por una cadena de Márkov de orden n-1.

Más precisamente, un modelo de n-grama predice basándose en . Debido a limitaciones computacionales y a la normalmente naturaleza abierta de los problemas (suele haber infinitos elementos posibles), se suele asumir que cada elemento solo depende de los últimos n elementos de la secuencia.

Las dos ventajas principales de este tipo de modelos son:

  • Relativa simplicidad
  • Es fácil ampliar el contexto de estudio incrementando el tamaño de n.

El origen de este tipo de modelo se remonta a los experimentos realizados por Claude Shannon en teoría de la información para la estimación de la ratio de entropía de los idiomas. Su idea fue que dada una secuencia de letras (por ejemplo, la secuencia "por ej"), ¿cuál es la siguiente letra más probable? A partir de un conjunto de datos de aprendizaje, uno puede deducir una distribución de probabilidad para la siguiente letra dado un conjunto de datos históricos de tamaño : a = 0.05, b = 0.00001, ..., e = 0.4, f = 0,....; donde las probabilidades de todas las posibles letras siguientes suman 1.0.

Ha habido estudios para analizar los n-gramas más frecuentes. Por ejemplo Google[1]​ posee una enorme cantidad de datos con información de este tipo. Parte de esa información, Google n-gram corpus, está accesible a través del Google Ngram Viewer que se puede acceder de forma pública en bruto o a través de una interfaz web. Esta información fue obtenida analizando más de cinco millones de libros de los últimos 500 años. Esta información es aprovechada, por ejemplo, para implementar su sistema de recomendación de consultas. Otra aplicación típica de esta información es descubrir tendencia analizando la presencia de ciertos sustantivos y viendo como se les va prestando más o menos atención (más o menos presencias) según la fecha de publicación e idioma del libro.[2]

Ejemplos típicos de aplicación de modelos de ngrama en el lenguaje natural:

  • En el reconocimiento de voz, los fonemas se modelan empleando una distribución de n-gramas. De esta forma los sistemas de reconocimiento de voz pueden decidir sobre cierta base entre varias interpretaciones posibles de lo que ha dicho el interlocutor. El reconocimiento de voz es un campo muy importante para los sistemas de espionaje que interceptan mensajes de voz (Ej. Echelon).[3]
  • En los editores de textos para recomendar cual va a ser la palabra siguiente o para detectar posibles errores.

Este tipo de modelos también son muy usados en otros ámbitos aparte de la lingüística como la teoría de la comunicación, estudios biológicos y compresión de datos.

Técnicas de suavizado

[4]​ Para establecer un modelo de n-grama algunos sistemas se basan en el estudio de una serie de datos de entrenamiento también llamados de aprendizaje (en inglés training corpus) y a partir de ahí directamente se estiman las probabilidades. Un problema obvio de este tipo de métodos es que asigna probabilidad 0 a todos aquellos n-gramas que no aparecen en los datos de entrenamiento. Para tratar con este tipo de problemas se han desarrollado una serie de técnicas a las que llamamos técnicas de suavizado y que reducen la probabilidad asignada a algunas de los n-gramas observados y que por otra parte proveen una probabilidad distinta de cero para aquellos n-gramas no observados en los datos de entrenamiento. Lo que se persigue en que todos los n-gramas razonable tengan una probabilidad distintas de cero.

Encajes por aproximación

Los n-gramas también pueden emplearse para realizar eficientemente encajes por aproximación. Convirtiendo una secuencia de elementos en un conjunto de n-gramas, éste puede introducirse en un espacio vectorial (en otras palabras, representarse como un histograma), permitiendo así a la secuencia compararse con otras secuencias de una manera eficiente. Por ejemplo, si convertimos cadenas de texto con sólo letras del alfabeto español en 3-gramas, conseguiremos un espacio vectorial de dimensiones (la primera dimensión mide el número de ocurrencias de "aaa", la segunda de "aab", y así para todas las posibles combinaciones de 3 letras). Empleando esta representación, perdemos información sobre la cadena de texto. Por ejemplo, las cadenas "abcba" y "bcbab" llevarán exactamente a los mismos digramas. Sin embargo, se conoce empíricamente que si dos cadenas de texto real tienen una representación vectorial similar (medida a través del producto escalar) es muy probable que sean similares. También pueden aplicarse otras métricas a los vectores de n-gramas con resultados variados (a veces, mejores). Por ejemplo la distribución normal puede emplearse para comparar documentos, examinando cuántas desviaciones típicas de cada n-grama difieren de la media en un conjunto grande de documentos (que forma el vector de fondo).

Aplicaciones prácticas de esta técnica son:

  • La detección de plagios de documentos.[5][6][7]
  • Clasificación de textos para mejorar la búsqueda de documentos y clasificación.- Ha habido trabajos[8]​ que utilizan análisis de n-gramas para clasificar la información. La propia NSA ha investigado sobre este tema. La patente 5.418.951 de Estados Unidos, otorgada a la NSA en 1995, patenta el uso de análisis de N-gramas para poder clasificar documentos según el tema que tratan. Se especula que la red Echelon hace uso de este tipo de tecnologías para clasificar la información que recoge.[3]

Otras aplicaciones

Los n-gramas se emplean en diversas áreas de la informática, lingüística computacional, y matemática aplicada. Son una técnica comúnmente empleada para diseñar núcleos que permiten a algoritmos automáticos de aprendizaje extraer datos a partir de cadenas de texto. Los n-gramas también pueden emplearse para encontrar candidatos probables para la correcta ortografía de una palabra mal escrita. También en algoritmos de compresión, donde una pequeña zona de datos necesita n-gramas de longitud mayor para mejorar la compresión. Los n-gramas se emplean a menudo en sistemas de reconocimiento de patrones para determinar la probabilidad de que una palabra dada aparezca en un texto. Esta capacidad puede ser útil en reconocimiento de voz, OCR (reconocimiento óptico de caracteres), reconocimiento inteligente de caracteres, traducciones automáticas, y aplicaciones similares en las que un sistema debe elegir el siguiente elemento (letra, palabra, fonema, etc.) de entre una lista de posibles candidatos. También se emplean en recompilación de información cuando es necesario encontrar "documentos" similares dado un documento y una base de datos de documentos de referencia.

En bioinformática, y en particular en la predicción de genes, se analizan n-gramas extraídos de las largas cadenas de ácidos nucleicos del ADN (secuencias o frases de un alfabeto de cuatro letras, en definitiva), así como de aminoácidos (un alfabeto que consta, usualmente, de veinte letras), con el objetivo de detectar patrones estadísticos que permitan poner de manifiesto la posible existencia de genes.

N-gramas sintácticos

Los n-gramas sintácticos son n-gramas definidos mediante caminos de un árbol sintáctico de dependencias o de constituyentes en lugar de la estructura lineal del texto.[9][10][11]​ Por ejemplo, la oración "las noticias económicas tienen poco efecto sobre los mercados financieros" puede ser transformada a n-gramas sintácticos siguiendo la estructura de sus relaciones de dependencia : tienen-noticias, efecto-poco, tienen-sobre-mercados-los.[9]

Los n-gramas sintácticos están destinadas a reflejar la estructura sintáctica más fielmente que los n-gramas lineales, y tienen muchas de las mismas aplicaciones, especialmente como características en un modelo de espacio vectorial. Los n-gramas sintácticos dan mejores resultados que el uso de n-gramas estándar para ciertas tareas, por ejemplo, para atribución de autoría.[12]

Referencias

  1. Dongjin Choi et al. "Solving English Questions through Applying Collective Intelligence"
  2. «http://amazings.es/2010/12/19/experimentos-y-tendencias-en-google-labs/». 
  3. a b Nacho García Mostazo,"Libertad Vigilada". Ediciones B, S.A., 2002
  4. Robert C. Moore y Chris Quirk,"Improved Smoothing for N-gram Language Models Based on Ordinary Counts"
  5. Caroline Lyon, Ruth Barrett, y James Malcolm."A theoretical basis to the automated detection of copying between texts, and its practical implementation in the Ferret plagiarism and collusion detector". In Proceedings of Plagiarism: Prevention, Practice and Policies Conference, Newcastle, UK, 2004.
  6. Caroline Lyon, James Malcolm, and Bob Dickerson. Detecting short passages of similar text in large document collections. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 118–125, Pennsylvania, 2001.
  7. Luis Alberto Barrón Cedeño,"Detección automática de plagio en texto"
  8. Marc Damashek,"Gauging Similarity with n-Grams: Language-Independent Categorization of Text". Science, New Series, Vol. 267, No. 5199 (Feb. 10, 1995), pp. 843-848. American Association for the Advancement of Science
  9. a b Sidorov, Grigori; Velazquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2012). «Syntactic Dependency-based N-grams as Classification Features». LNAI 7630: 1-11. 
  10. Sidorov, Grigori (2013). «Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction». International Journal of Computational Linguistics and Applications 4 (2): 169-188. 
  11. * Figueroa, Alejandro; Atkinson, John (2012). «Contextual Language Models For Ranking Answers To Natural Language Definition Questions». Computational Intelligence 28 (4): 528--548. 
  12. Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana. «Syntactic N-grams as Machine Learning Features for Natural Language Processing». Expert Systems with Applications 41 (3): 853-860. doi:10.1016/j.eswa.2013.08.015. 

Enlaces externos

Read other articles:

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada April 2016. Kamp konsentrasi Agedabia adalah kamp konsentrasi Italia yang didirikan di Ajdabiya (dulu disebut Agedabia) di koloni Libya Italia semasa Pasifikasi Libya yang terjadi tahun 1928 sampai 1932.[1] Kamp ini tercatat dihuni oleh 10.000 orang.[1&#...

 

Romanian television channel Television channel Antena StarsCountryRomaniaBroadcast areaRomaniaProgrammingPicture format1080i HDTV (downscaled to 576i for the SDTV feed)OwnershipOwnerAntena TV Group (Intact Media Group)Sister channelsAntena 1Antena 3 CNNAntena InternaționalGSP TVHappy ChannelZU TVHistoryLaunched9 April 2007 (as Antena 2)16 December 2013 (as Antena Stars)Closed16 December 2013 (as Antena 2)Former namesAntena 2 (2007–2013)LinksWebsitewww.antenastars.ro Antena Stars is a Roman...

 

Zac FarroInformasi latar belakangNama lahirZachary Wayne FarroLahir4 Juni 1990 (umur 33) Voorhees Township, New Jersey, Amerika SerikatGenreAlternative rock, pop punk, punk rockPekerjaanMusisi, drummerInstrumenDrum, perkusi, gitar, keyboardTahun aktif2004–PresentArtis terkaitNovel American, Half Noise, Paramore Zachary Wayne Farro (lahir 4 Juni 1990) adalah drummer asal Amerika Serikat untuk band Novel American dan Half Noise. Ia terkenal sebagai drummer dari band rock alternatif Param...

Ini adalah nama Tionghoa; marganya adalah Li. Li Peng李鹏 Perdana Menteri Republik Rakyat Tiongkok ke-4Masa jabatan25 Maret 1988 – 17 Maret 1998Penjabat: 24 November 1987 - 25 March 1988PresidenYang ShangkunJiang ZeminWakil Perdana Menteri Kabinet I (1988–93) Yao YilinTian JiyunWu XueqianZou JiahuaZhu Rongji Kabinet II (1993–98) Zhu RongjiZou JiahuaQian QichenLi LanqingWu BangguoJiang Chunyun PendahuluZhao ZiyangPenggantiZhu RongjiKetua Komite Tetap Kongres Rakyat Nasiona...

 

Questa voce o sezione sull'argomento Florida non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. Contea di PinellasconteaCounty of Pinellas Contea di Pinellas – Veduta LocalizzazioneStato Stati Uniti Stato federato Florida AmministrazioneCapoluogoClearwater Data di istituzione1911 TerritorioCoordinatedel capoluogo27°54′00″N 82°44′24″W&#x...

 

Artikel ini sudah memiliki daftar referensi, bacaan terkait, atau pranala luar, tetapi sumbernya belum jelas karena belum menyertakan kutipan pada kalimat. Mohon tingkatkan kualitas artikel ini dengan memasukkan rujukan yang lebih mendetail bila perlu. (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Untuk kegunaan lain, lihat '''Metamorfosis''' atau '''Metamorphosis''' dan Metamorfosis (disambiguasi). Seekor capung sedang melakukan ekdisis terakhirnya, bermetamorfosis dari...

Human settlement in EnglandEvertonThe village sign for Everton-cum-TetworthEvertonLocation within BedfordshirePopulation523 (2011 Census)[1]OS grid referenceTL201512Unitary authorityCentral BedfordshireCeremonial countyBedfordshireRegionEastCountryEnglandSovereign stateUnited KingdomPost townSANDYPostcode districtSG19Dialling code01767PoliceBedfordshireFireBedfordshire and LutonAmbulanceEast of England UK ParliamentNorth East Bedfordshire ...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Vostok-2 rocket – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this message) Vostok-2Vostok-2 rocketFunctionCarrier rocketManufacturerOKB-1Country of originUSSRSizeStagesTwoCapacity Payload to LEOMass4,730 kilog...

 

GP2 Asia Series CategoriaMonoposto NazioneAsia Prima edizione2008 Ultima edizione2011 Sito web ufficialegp2series.com La GP2 Asia Series è stata una serie automobilistica di supporto alla GP2. Indice 1 Storia 2 Albo d'oro 3 Note 4 Altri progetti Storia La nascita della serie fu ufficialmente annunciata durante il weekend del Gran Premio di Monaco 2007.[1] L'organizzatore della GP2 Bruno Michel dichiarò che: «È di grande importanza che la GP2 Asia Series mantenga un solido e strett...

Centre d'initiative pour les relations et le dialogue entre juifs et chrétiens Cadre But dialogue entre juifs et chrétiens Zone d’influence France Fondation Fondation 13 novembre 1965 Origine Nostra Ætate Identité Siège Paris Président père Patrick Desbois Directeur général frère Louis-Marie Coudray Site web cirdic.fr modifier Le Centre d'initiative pour les relations et le dialogue entre juifs et chrétiens (CIRDIC) est un centre international de documentation et d'enseignement ...

 

The Georgetown VoiceEditor-in-chiefGraham KrewinghausCategoriesNews magazineFrequencyTwice monthly on FridaysFirst issueMarch 4, 1969Based inWashington, DCLanguageEnglishWebsitewww.georgetownvoice.com The Georgetown Voice is a student-run biweekly campus news magazine at Georgetown University. Founded as a print magazine in March 1969, the Voice publishes new editions every other Friday during the academic year. The magazine publishes online daily throughout the year, featuring news on campus...

 

Гальфрид Монмутский Дата рождения не ранее 1090 и не позднее 1110 Место рождения Монмут, Королевство Гвент Дата смерти около 1155[1] Место смерти Лландаффский собор, Kingdom of Morgannwg[вд] Подданство Королевство Англия Образование Оксфордский университет Род деятельно...

«Днепр-Арена» Стадион УЕФА категории 4 Местоположение Украина, Днепр, ул. Херсонская, 7 Построен 2005—2008 Открыт 14 сентября 2008 Стоимость постройки 65 млн €455 млн 330 тыс. ₴ Архитектор Юрий Серёгин Владелец «ПриватБанк» Застройщик «Hochtief» Вместимость 34 000 (полная) 31 003 (мест для зр...

 

جون ينسن معلومات شخصية الميلاد 3 مايو 1965 (العمر 59 سنة)كوبنهاغن الطول 1.78 م (5 قدم 10 بوصة) مركز اللعب وسط الجنسية مملكة الدنمارك  مسيرة الشباب سنوات فريق بروندبي المسيرة الاحترافية1 سنوات فريق م. (هـ.) 1983–1988 بروندبي 1988–1990 هامبورغ 47 (0) 1990–1992 Brøndby IF 44 (4) 1992–1996 أرسنال 99 (1)...

 

Domenico Tedesco Tedesco saat menjadi kepala pelatih Spartak Moskwa pada 2020Informasi pribadiTanggal lahir 12 September 1985 (umur 38)Tempat lahir Rossano, Italia[1]Tinggi 178 cm (5 ft 10 in)Informasi klubKlub saat ini Belgia (Kepala pelatih)Karier senior*Tahun Tim Tampil (Gol) ASV Aichwald Kepelatihan ASV Aichwald (U-9)2008–2013 VfB Stuttgart (U-17) (asisten)2013–2015 VfB Stuttgart (U-17)2015–2016 1899 Hoffenheim (akademi)2016–2017 1899 Hoffenheim (U-19)...

Small roll of tobacco made to be smoked For other uses, see Cigarette (disambiguation) and Cigarettes (disambiguation). Cig redirects here. For other uses, see Cig (disambiguation). A filtered cigarette An electronic cigarette A cigarette is a narrow cylinder containing a combustible material, typically tobacco, that is rolled into thin paper for smoking. The cigarette is ignited at one end, causing it to smolder; the resulting smoke is orally inhaled via the opposite end. Cigarette smoking i...

 

American computer hacker and criminal For the former Attorney General of the United States, see Alberto Gonzales. Stanozlolz redirects here. Not to be confused with Stanozolol. Albert GonzalezPhoto of Albert Gonzalez by U.S. Secret Service (pre-2009)Born1981 (age 42–43)CubaOther names 201679996 cumbajohny j4guar17 kingchilli segvec soupnazi stanozlolz UIN 476747 Criminal statusReleasedCriminal chargeHackingPenalty20 years federal prison Albert Gonzalez (born 1981) is an Americ...

 

For other uses, see Stopera (surname). Complex with city hall and opera in Amsterdam 52°22′02″N 4°54′06″E / 52.36722°N 4.90167°E / 52.36722; 4.90167 StoperaThe StoperaGeneral informationAddressAmstel 1, 1011 PN Amsterdam, the NetherlandsCurrent tenantsGovernment of Amsterdam, Dutch National Opera, Dutch National Ballet and Holland SymfoniaCompletedSeptember 1986; 37 years ago (1986-09)ClientGovernment of AmsterdamDesign and constructi...

Medical conditionDacryoadenitisLacrimal gland(upper left)SpecialtyOphthalmology  Dacryoadenitis is inflammation of the lacrimal glands.[1] Symptoms Swelling of the outer portion of the upper lid, with possible redness and tenderness Pain in the area of swelling Excess tearing or discharge Swelling of lymph nodes in front of the ear Complications Swelling may be severe enough to put pressure on the eye and distort vision. Some patients first thought to have dacryoadenitis may turn...

 

Human between birth and puberty Children and Childhood redirect here. For other uses, see Child (disambiguation), Children (disambiguation), and Childhood (disambiguation). International children in traditional clothing at Liberty Weekend Part of a series onHuman growthand development Stages Gamete Zygote Embryo Fetus Infant Toddler Child Preadolescent Adolescent Emerging and early adulthood Young adult Middle adult Old adult Dying Biological milestones Fertilization Pregnancy Childbirth Walk...