Modelación del lenguaje

Modelación del lenguaje hace referencia a la tarea de predecir la siguiente palabra o carácter en un documento. Esta técnica puede ser usada para entrenar modelos de lenguaje con una gran diversidad de aplicaciones, como la generación de texto o la clasificación de textos, entre otras.[1]

Esto se realiza por medio de información estadística asociada con un vocabulario específico, que tiene el objetivo de predecir las palabras con más probabilidades de ser utilizadas.

Contar con una forma de estimar la verosimilitud de diversas frases resulta sumamente útil en una variedad de aplicaciones dentro del procesamiento del lenguaje natural. Los modelos de lenguaje se emplean en el reconocimiento de voz, la traducción automática, el etiquetado de discurso, el análisis de texto, el reconocimiento de escritura, la recuperación de información y otras muchas aplicaciones.

Ejemplos

En el reconocimiento de voz, la computadora se esfuerza por asociar los sonidos con secuencias de palabras. El modelo de lenguaje desempeña un papel fundamental al proporcionar un contexto que permite discernir entre palabras y frases que, a nivel auditivo, pueden parecer similares. Por ejemplo, en inglés americano, las frases "recognize speech" y "wreck a nice beach" se pronuncian de manera parecida, pero tienen significados completamente distintos. Estas ambigüedades se resuelven de manera más efectiva cuando se combina la información del modelo de lenguaje con los modelos de pronunciación y acústicos.[2]

Los modelos del lenguaje se utilizan en la recuperación de información en el modelo de consulta probabilístico. Aquí, un modelo del lenguaje está asociado con cada documento en una colección. Los documentos se clasifican sobre la base de la probabilidad de la consulta en el modelo del lenguaje del documento . Comúnmente, el modelo del lenguaje unigrama (conocido también como el modelo bolsa de palabras) se utiliza para este propósito.

La escasez de datos es un problema importante en la construcción de modelos de lenguaje. La mayoría de las posibles secuencias de palabras no serán observadas en el entrenamiento. Una solución es hacer la hipótesis de que la probabilidad sea posible.

Modelos unigrama

Un modelo unigrama es utilizado en la recuperación de información y puede ser visto como la combinación de varios autómatas finitos de un solo estado.[3]​ Divide las probabilidades de diferentes términos en un contexto, por ejemplo, desde a .

En este modelo, la probabilidad de acertar cada palabra depende por completo de sí, por lo que sólo tenemos autómatas finitos de un estado como unidades. Para cada autómata, solo tenemos una manera de alcanzar su único estado, asignado con una probabilidad. Visualizando todo el modelo, la suma de todas las probabilidades de alcanzar un estado debe ser uno. El siguiente es un modelo unigrama de un documento.

Términos Probabilidad en el documento
a 0.1
world 0.2
likes 0.05
we 0.05
share 0.3
... ...

La probabilidad generada para una consulta específica se calcula como

Se pueden construir distintos modelos unigrama para variados documentos, para generar diferentes probabilidades de acierto en una consulta. Por tanto, podemos clasificar los documentos para una consulta de acuerdo a las probabilidades de generación. El siguiente es un ejemplo de dos modelos unigrama de dos documentos:

Términos Probabilidad en documento 1 Probabilidad en documento 2
a 0.1 0.3
world 0.2 0.1
likes 0.05 0.03
we 0.05 0.02
share 0.3 0.2
... ... ...

En contextos de recuperación de información, los modelos de lenguaje unigramas a menudo se suavizan para evitar casos en los que . Un enfoque común es generar un modelo de máxima verosimilitud para la colección entera, e interpolar linealmente el modelo de colección con un modelo de máxima verosimilitud para cada documento para crear un modelo de documento suavizado.[4]

Modelos N-grama

En un modelo de n-grama, la probabilidad de observar la frase se aproxima como Aquí se asume que la probabilidad de observar la ith palabra wi en la historia contexto de las palabras i-1 anteriores se puede aproximar por la probabilidad de observar que en la historia contexto abreviada de los n-1 anteriores palabras (orden nth Propiedad de Markov). La probabilidad condicional puede calcularse a partir de recuentos de frecuencia n-grama: Las palabras bigrama' y modelo del lenguaje trigrama denotan modelos de lenguaje n-grama con n=2 y n=3, respectivamente.[5]​ Típicamente, sin embargo, las probabilidades de n-grama no se derivan directamente de los recuentos de frecuencia, porque los modelos derivados de esta manera tienen graves problemas cuando se enfrentan a cualquier n-grama que explícitamente no se ha visto antes. En cambio, alguna forma de suavizado es necesaria, asignando una porción de la probabilidad total a las palabras o n-gramas que no se han visto anteriormente. Se utilizan varios métodos, desde la técnica de suavizado simple "agrega-uno" (añade artificialmente una observación a todos los elementos del vocabulario) a modelos más sofisticados, como El descuento Good-Turing, modelos de back-off o interpolación.

Ejemplo

En un modelo del lenguaje bígama (n = 2), la probabilidad de que la frase I saw the red house se aproxima como mientras que en un modelo del lenguaje trigrama (n = 3), la aproximación es Tenga en cuenta que el contexto de los primeros first n-gramas se llena con los marcadores de inicio de frase, denotado típicamente

<s>. Además, sin un marcador de final de frase, la probabilidad de una secuencia no gramatical I saw the siempre sería superior a la de la sentencia I saw the red house.

Otros modelos

Un modelo del lenguaje posicional[6]​ es el que describe qué probabilidad hay de que ocurran ciertas palabras cerca una de la otra en un texto, sin la necesidad de que sean adyacentes. Del mismo modo, los modelos de bolsa de conceptos[7]​ de apalancamiento en la semántica es asociada con expresiones de varias palabras como: "buy christmas present", incluso cuando se utilizan en oraciones ricas en información, como "today I bought a lot of very nice Christmas presents".

Véase también

Referencias

  1. https://paperswithcode.com/task/language-modelling#:~:text=Language%20Modeling%20is%20the%20task,text%20classification%2C%20and%20question%20answering.
  2. «¿Cómo funciona el reconocimiento automático del habla?». 20 de marzo de 2018. Consultado el 25 de julio de 2023. 
  3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, pages 237-240. Cambridge University Press, 2009
  4. Buttcher, Clarke, and Cormack. Information Retrieval: Implementing and Evaluating Search Engines. pg. 289-291. MIT Press.
  5. Craig Trim, What is Language Modeling?, April 26th, 2013.
  6. Yuanhua Lv and ChengXiang Zhai, Positional Language Models for Information Retrieval Archivado el 24 de noviembre de 2020 en Wayback Machine., in Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 2009.
  7. E. Cambria and A. Hussain. Sentic Computing: Techniques, Tools, and Applications. Dordrecht, Netherlands: Springer, ISBN 978-94-007-5069-2(2012)

Bibliografía

  • J M Ponte and W B Croft (1998). «A Language Modeling Approach to Information Retrieval». Research and Development in Information Retrieval. pp. 275-281. 
  • F Song and W B Croft (1999). «A General Language Model for Information Retrieval». Research and Development in Information Retrieval. pp. 279-280. 

Enlaces externos

Read other articles:

London Overground station Shoreditch High Street Shoreditch High StreetLocation of Shoreditch High Street in Central LondonLocationShoreditchLocal authorityLondon Borough of Tower Hamlets & HackneyManaged byLondon OvergroundOwnerTransport for LondonStation codeSDCNumber of platforms2AccessibleYesFare zone1National Rail annual entry and exit2018–19 9.374 million[1]– interchange  0.505 million[1]2019–20 9.054 million[1]– interchange  0.428 million&#...

 

Pour les articles homonymes, voir Barrage (homonymie). Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Certaines informations figurant dans cet article ou cette section devraient être mieux reliées aux sources mentionnées dans les sections « Bibliographie », « Sources » ou « Liens externes » (septembre 2017). Vous pouvez améliorer la vérifiabilité en associant ces informations à des références à l'aide d'appels de...

 

Sven Ulreich Ulreich nel 2019 Nazionalità  Germania Altezza 192 cm Peso 84 kg Calcio Ruolo Portiere Squadra  Bayern Monaco Carriera Giovanili 1998-2007 Stoccarda Squadre di club1 2006-2010 Stoccarda II73 (-81)2007-2015 Stoccarda176 (-281)2015-2020 Bayern Monaco45 (-41)2020-2021 Amburgo32 (-40)2021- Bayern Monaco14 (-15) Nazionale 2003-2004 Germania U-162 (-1)2007 Germania U-193 (-1)2009-2010 Germania U-216 (-7) 1 I due numeri indicano le presenze e le...

2019 Facebook event and Internet meme Storm Area 51Part of Area 51 conspiracy theoriesClockwise from top: Alienstock 2019 Alamo residents sell margaritas to Alienstock attendees Crowd gathered at the back gate of Area 51 on the night of the 20th An attendee of the Storming poses in front of Area 51's main gate Lincoln County Deputies stand guard at the back gate to Area 51 DateSeptember 17–21, 2019 (2019-09-17 – 2019-09-21) (4 years ago)Durationapproximately 96 hoursV...

 

Tantalum(V) iodide Names Other names Tantalum pentaiodide Identifiers CAS Number 14693-81-3 TaI5 Y26814-38-0 Ta2I10 3D model (JSmol) Interactive image ChemSpider 76319 EC Number 238-742-4 PubChem CID 84598 InChI InChI=1S/5HI.Ta/h5*1H;/q;;;;;+5/p-5Key: MISXNQITXACHNJ-UHFFFAOYSA-I SMILES [I-].[I-].[I-].[I-].[I-].[Ta+5] Properties Chemical formula Ta2I10 Molar mass 1631 Appearance black solid Density 5.8 g/cm3 Melting point 382[1] °C (720...

 

DaneseDanskParlato in Danimarca Fær Øer Groenlandia Germania Islanda Norvegia Svezia Minori comunità di locutori danesi sono inoltre presenti in Canada e negli Stati Uniti come conseguenza dell’immigrazione. RegioniEuropa settentrionale LocutoriTotale5,6 milioni di parlanti (Ethnologue, 2022) Classifica100 (2019) Altre informazioniScritturaAlfabeto latino TipoSVO flessiva (ordine semilibero) TassonomiaFilogenesiLingue indoeuropee Lingue germaniche&...

The Yellowstone National Park Protection Act was a law passed by the 42nd US Congress and signed into law by President Ulysses S. Grant on March 1, 1872, creating Yellowstone National Park.[1] Yellowstone was the first national park in the US and is considered to be the first national park in the world.[2] Yellowstone National Park Protection Act Wikisource has original text related to this article: Yellowstone National Park Protection Act References ^ Act Establishing Yellows...

 

Logo Power Balance. Power Balance adalah merek gelang yang oleh pembuat dan vendornya diklaim sebagai produk yang menggunakan teknologi holografis untuk bekerja dengan medan energi alami tubuh. Power Balance menggunakan terapi hologram, yaitu pengobatan energi, yang merupakan cabang dari pengobatan alternatif. Menurut pembuatnya, Power Balance didasarkan pada gagasan untuk mengoptimalkan aliran energi di dalam tubuh. Hologram pada Power Balance didesain untuk beresonansi dan merespon medan en...

 

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

British law firm Macfarlanes LLPHeadquartersLondon, United KingdomNo. of officesTwo (London and Brussels)[1]No. of lawyersApproximately 600[2]No. of employeesApproximately 940[2]Major practice areasGeneral practiceKey peopleSebastian Prichard Jones[3](Senior Partner)Luke Powell[3](Managing Partner)Katherine Milliken[3](Chief Operating Officer)Revenue£303.7 million (2021/22)[4]Profit per equity partner£2.48...

 

国民阵线Barisan NasionalNational Frontباريسن ناسيونلபாரிசான் நேசனல்国民阵线标志简称国阵,BN主席阿末扎希总秘书赞比里署理主席莫哈末哈山总财政希山慕丁副主席魏家祥维纳斯瓦兰佐瑟古律创始人阿都拉萨成立1973年1月1日 (1973-01-01)[1]设立1974年7月1日 (1974-07-01)前身 联盟总部 马来西亚  吉隆坡 50480 秋傑区敦依斯迈路太子世贸中心(英�...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Puri di Bali – berita · surat kabar · buku · cendekiawan · JSTOR Puri di pulau Bali adalah nama sebutan untuk tempat tinggal bangsawan Bali, khususnya mereka yang masih merupakan keluarga dekat dari raja...

Hospital in Alberta, CanadaLeduc Community HospitalAlberta Health ServicesLeduc Community Hospital (2009)GeographyLocationLeduc, Alberta, CanadaCoordinates53°15′17.43″N 113°32′43.5″W / 53.2548417°N 113.545417°W / 53.2548417; -113.545417 (Leduc Community Hospital)OrganizationCare systemMedicareTypeAcute careServicesEmergency departmentYesBeds70LinksWebsiteOfficial websiteListsHospitals in Canada The Leduc Community Hospital (technically Leduc Communi...

 

500-foot skyscraper in the Denny Regrade neighborhood of Seattle, Washington 1918 Eighth AvenueLocation within downtown SeattleGeneral informationStatusCompletedTypeofficeLocation1918 8th Ave, Seattle, Washington 98101, United StatesCoordinates47°36′57″N 122°20′10″W / 47.6157°N 122.3361°W / 47.6157; -122.3361Completed2009OwnerJPMorgan ChaseHeightRoof500 ft (150 m)Technical detailsFloor count36Floor area658,744 sq ft (61,199.3 m2)Des...

 

London CallingCoronation of Queen Elizabeth II issueCategoriesListings magazineFrequencyMonthlyFinal issueDecember 2004CompanyBBC World ServiceCountryUnited KingdomBased inLondonLanguageEnglishOCLC4652734 London Calling (later renamed BBC Worldwide, then BBC On Air) was a monthly magazine[1] that contained programme listings for the BBC World Service shortwave radio broadcasting service. Originally called the Empire Programme Pamphlet (for what was then known as the BBC Empire Servic...

Administrative area of Napoleonic Poland Warsaw DepartmentDepartament WarszawskiDepartment of the Duchy of Warsaw1806–1815Administrative division of the Duchy of Warsaw, 1810–1815. Warsaw Department is navy blue in the centerCapitalWarsawHistory • Established 1806• Disestablished 1815 Preceded by Succeeded by Warsaw Department Masovian Voivodeship (1816–1837) Warsaw Department (Polish: Departament warszawski) was a unit of administrative division and local government ...

 

Pour les articles homonymes, voir Bill Johnson et Johnson. Bill Johnson Fonctions Représentant des États-Unis En fonction depuis le 3 janvier 2011(13 ans, 5 mois et 22 jours) Élection 2 novembre 2010 Réélection 6 novembre 20124 novembre 20148 novembre 20166 novembre 20183 novembre 2020 Circonscription 6e district de l'Ohio Législature 112e, 113e, 114e, 115e, 116e et 117e Prédécesseur Charlie Wilson Biographie Nom de naissance William Leslie Johnson Date de naissan...

 

.bg

.bg البلد بلغاريا  الموقع الموقع الرسمي  تعديل مصدري - تعديل   bg. هو نطاق إنترنت من صِنف مستوى النطاقات العُليا في ترميز الدول والمناطق، للمواقع التي تنتمي لبلغاريا.[1][2] مراجع ^ النطاق الأعلى في ترميز الدولة (بالإنجليزية). ORSN [الإنجليزية]. Archived from the original on 2019-05-07....

American manufacturing company For the Australian entertainment company, see Crown Resorts. For the American cable network operator, see Crown Media. Crown Holdings, Inc.Brand-Building PackagingCompany typePublic companyTraded asNYSE: CCKS&P 400 componentIndustryPackagingFounded1892; 132 years ago (1892)FounderWilliam PainterHeadquartersYardley, Pennsylvania, U.S.Key peopleTimothy J. Donahue(CEO, President, and Chairman of the Board)Kevin C. Clothier(CFO and SVP)Pro...

 

Ancient type of rustic footwear For the genus of moth formerly known by this name, see Dichomeris. Ernest Hebert's 1855 The Girls of Alvito in the Papal States, wearing carbatinae with footwraps A Casertan woman circa 1860 wearing carbatina and traditional Campanian clothing The carbatina (pl. carbatinae) was a kind of shoe common among the rural poor of ancient Greece and Rome from remote antiquity to around the 3rd century, consisting of a piece of rawhide pulled around the foot and then ti...