Ratio de entropía

La ratio de entropía de una secuencia de n variables aleatorias (proceso estocástico) caracteriza la tasa de crecimiento de la entropía de la secuencia con el crecimiento de n.

La tasa de entropía de un proceso estocástico viene definida por la ecuación:

siempre que dicho límite exista.

Una cantidad relacionada con la ratio de entropía ( H(X) ) es:

cuando dicho límite existe.

H'(X) mide la entropía condicional de la última variable aleatoria en función de todas las anteriores. Para proceso estocásticos estacionarios se cumple H(X)=H'(X)

Ejemplos

  • Consideremos el caso de una máquina de escribir que tiene m teclas con igual probabilidad de ser tecleada. Podemos decir que y por tanto . Podemos generalizar, si es un proceso estocástico con variables aleatorias independientes e idénticamente distribuida. Entonces:
  • Supongamos un proceso estocástico con variables aleatorias independientes pero no idénticamente distribuidas. Por tanto:
Sin embargo depende de la distribución de las variables aleatorias que exista, o no, el límite y por tanto la tasa de entropía. Por ejemplo si definimos una secuencia binaria aleatoria en la que no es constante sino una función de i de la forma
si
si
para k=0,1,2...
Entonces H(X) no está definida para este proceso.

Ratio de un idioma

Un idioma o lengua, es un sistema de comunicación verbal o gestual propio de una comunidad humana. Podemos observar que en los idiomas existen letras, conjuntos de letras y palabra más comunes que otras. La gramática del idioma también restringe qué palabras y en que orden se pueden encontrar. Además el resto del mensaje (el contexto) también afecta a la probabilidad de aparición de una palabra. Por ejemplo si estamos en un contexto judicial y aparecen las letras "im", podemos determinar que la palabra "impugnar" es más probable que la palabra "imbécil". En este caso podríamos decir que hay una probabilidad de las palabras condicionada por el contexto (resto de palabras).

Por tanto podemos decir que los idiomas son 'ineficientes', es decir, contienen mucha redundancia. No sería necesario usar todos los símbolos que usamos para expresar algo. Por ejemplo si queremos transmitir el mensaje "This is a suny day" podríamos usar la expresión "This is a suny dy" de forma que el receptor nos entendería igual.[1]​ Esta es el fundamento en el que se basa el uso habitual de un montón de abreviaturas cuando la gente se comunica con SMSs.

Podemos considerar un idioma como un proceso estocástico de variables aleatorias donde cada una tiene como valor un símbolo del lenguaje. Debido a las características vistas de los lenguajes, y usando la entropía condicionada, podemos decir:

Definimos la ratio de entropía de un idioma (vamos a denotar por R), también llamada simplemente ratio del idioma, como la ratio de entropía del proceso:

Es decir, la ratio de entropía de un idioma es el límite de la entropía de un ejemplo de texto en el idioma, cuando la longitud del texto se hace muy grande. La ratio de un idioma la podemos interpretar como la cantidad de información que contiene cada letra de nuestro alfabeto. En otras palabras, si un alfabeto consta de L elementos, existirán mensajes posibles de longitud N. Sin embargo como los mensajes son redundante solo obtendremos (con r la ratio del idioma) mensajes que tengan sentido

Para el castellano se estima que el ratio está entre 1.2 y 1.5. Para el inglés se estima en torno al 1.3.

Se llama ratio absoluta (vamos a denotar por ) de un idioma al valor máximo que puede tener la ratio de un idioma. Es decir si tenemos un idioma con n símbolos la ratio máxima del idioma será aquel en el que todos los símbolos son equiprobables e independientes. Por tanto . Este valor identifica el máximo número de bits que pueden ser codificados con cada carácter (símbolo) asumiendo que cada carácter de la secuencia es equiprobable.

Se llama redundancia de un idioma (vamos a denotar por ) a la diferencia entre la ratio absoluta y la ratio de un idioma. Por tanto . Este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna información.

Dado que la redundancia nos indica el número de bits extra usados para codificar un mensaje (bits redundantes) y es el número de bits para codificar un alfabeto de n símbolos letra a letra, entonces la relación expresará porcentualmente que tan redundante es el lenguaje utilizado. Para el castellano tenemos como porcentaje de redundancia

Métodos de cálculo

Se han usado distintos métodos para aproximarse al valor de la ratio de entropía de un idioma. Estos métodos se han aplicado habitualmente al idioma inglés pero, en general, esos métodos son aplicables a cualquier otro idioma obteniendo su propio valor aproximado. Vamos a ver los métodos propuestos más importantes y cuales han sido los resultados para el idioma inglés. El idioma inglés se suele considerar formado por un alfabeto de 27 símbolos (26 letras más el espacio en blanco).

Aproximación sucesiva

Shannon[2]​ describió un método para aproximarnos al cálculo de la ratio de un idioma basándose en el estudio de los n-gramas. Para ello Shannon propone una serie de lenguajes artificiales que convergen con el idioma y que van aproximándose cada vez más a él. En cada paso se van cogiendo más características del idioma pareciéndose cada vez más a él y por tanto la incertidumbre de cada símbolo, condicionada por el conocimiento de los anteriores, se va reduciendo. De esta forma va acotando paulatinamente la ratio del idioma. La serie de lenguajes artificiales que propone son los siguientes:

  • Aproximación de símbolos orden 0. En esta aproximación todos los símbolos son equiprobables e independientes. Por tanto el valor de ratio del idioma será igual a la ratio absoluta e igual a y por tanto 4.76.
  • Aproximación de símbolos de orden 1. En esta aproximación tenemos símbolos independientes pero cada símbolo tendrá la misma probabilidad que el símbolo tiene en el idioma que se está trabajando, en este caso el inglés. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 4.03
  • Aproximación de símbolos de orden 2. Es similar a la aproximación de orden 1 pero en lugar de aplicar la frecuencia de los símbolos se aplica la frecuencia de los digramas (secuencias de 2 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los digramas que forma con el símbolo anterior. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 3.9
  • Aproximación de símbolos de orden 3. Es similar a la aproximación de orden 2 pero en lugar de aplicar la frecuencia de los digramas se aplica la frecuencia de los trigramas (secuencias de 3 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los trigramas que forma con los dos símbolo anteriores.
  • Aproximación de símbolos de orden 4. Es similar a la aproximación de orden 3 pero en lugar de aplicar la frecuencia de los trigramas se aplica la frecuencia de los tetragramas (secuencias de 4 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los tetragramas que forma con los tres símbolo anteriores. Esta aproximación no fue propuesta por el documento original de Shannon. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 2.8
  • Aproximación de palabras de orden 1. Se escogen palabras del inglés y la frecuencia de cada una es la que tiene cada palabra en el idioma.
  • Aproximación de palabras de orden 2. Se usa las probabilidades de transición entre palabras del idioma. Sin embargo no se incluye ninguna otra probabilidad en la estructura.

Sin embargo estos valores sólo sirven para acotar ya que no capturan toda la estructura del idioma, sólo capturan una parte (aunque cada vez más importante).

La aplicación de esta técnica de acotación se puede extender para acotar la ratio de entropía de otros tipos de fuentes de información. Por ejemplo, podríamos aplicarla a los distintos métodos de codificación de imágenes.

Estimación mediante el juego de adivinación de Shannon

Este método de estimación fue realizado por Shannon en 1950[3]​ obteniendo un valor de 1.3.

El método consiste en coger un ejemplo de texto suficientemente largo y preguntar sucesivamente a un humano que adivine la próxima letra. Si un sujeto contesta con un símbolo x podemos interpretar que el sujetoo estima que el símbolo x es el más probable en el contexto que está analizando. Si fallara contestaría con el siguiente más probable y así sucesivamente. El experimentador guarda el número de intentos necesitados para calcular cada siguiente carácter. Con los datos obtenidos se puede calcular la distribución empírica de la frecuencia del número de adivinaciones requeridas para calcular el siguiente carácter. Muchas letras requerirán sólo un intento, sin embargo otras serán más difíciles (por ejemplo las iniciales de palabras o frases).

Usando este método con distintos textos independientes podemos hacer una estimación de la ratio del idioma ya que podemos conjeturar que la entropía de las secuencia a adivinar es la entropía del idioma. Por tanto la entropía de la secuencia a adivinar está vinculada con la entropía del histograma construido contabilizando los intentos en el experimento.

Estimación mediante apuestas

En este enfoque hacemos que un sujeto humano apueste sobre la próxima letra de un texto en inglés. Esto permite ser más finos en la gradación de los juicios sobre la adivinación de la próxima letra. En este caso, la elección óptima es proporcional a la probabilidad condicional de la próxima letra. Como tenemos 27 símbolos entonces se pagará con la proporción 27 a 1 si se elige la letra correcta.

La apuesta de forma secuencial es equivalente a apostar sobre la secuencia completa. Por tanto la apuesta después de n letras puede ser escrita como:

donde ) es la fracción de la ganancia del apostante en la secuencia.

Si asumimos que el sujeto conoce la distribución de probabilidad subyacente podemos estimar que:

siendo la entropía. A partir de ahí se puede estimar la ratio de entropía

En un experimento[4]​ con 12 sujetos con un texto de 75 letras devolvió una estimación de 1.34 como ratio del idioma inglés.

Referencias

  • Thomas M. Cover, Joy A. Thomas,"Elements of Information Theory", John Wiley & Sons. Second Edition 2006
  • Jorge Ramió Aguirre, Aplicaciones criptográficas. Libro guía de la asignatura de Seguridad Informática. Escuela Universitaria de Informática. Universidad Politécnica de Madrid. Enero 1998.
  1. Denis Trček,"Managing information systems security and privacy", Springer-Verlag Berling Heidelberg 1996
  2. C. E. Shannon,"A Mathematical Theory of Communication",The Bell System Technical Journal Vol 27 pp. 379–423, 623–656, July, October, 1948
  3. C. E. Shannon, "Prediction and entropy of printed English". Bell Syst. Tech. J., 30:50–64, Enero 1951
  4. T. M. Cover and R. King. A convergent gambling estimate of the entropy of English. IEEE Trans. Inf. Theory, IT-24:413–421, 1978.

Read other articles:

Pendudukan KonstantinopelBagian dari Perang Kemerdekaan TurkiUSS Noma (SP-131) di Istana Dolmabahçe (1920)Tanggal13 November 1918 – 4 Oktober 1923[1]LokasiKonstantinopel (sekarang Istanbul)Hasil Distrik Istanbul diduduki Britania Raya, lalu ditinggalkanPihak terlibat Britania Raya Prancis Italia Revolusioner TurkiTokoh dan pemimpin Somerset Arthur Gough-Calthorpe Louis Franchet d'Esperey Selahattin Adil Pasha¹ Pendudukan Konstantinopel (Istanbul modern) (13 November 1918 – 4 Okt...

 

Smartphone app YoDeveloper(s)Or ArbelInitial releaseApril 1, 2014; 10 years ago (2014-04-01)Operating systemiOS, AndroidWebsitewww.justyo.co Yo was a social mobile application for iOS, Android, and formerly also Windows Phone. Initially, the application's only function was to send the user's friends the word yo as a text and audio notification,[1] but was then updated to enable users to attach links and location to their Yos.[2][3] History Yo was crea...

 

العلاقات الساموية الكورية الشمالية ساموا كوريا الشمالية   ساموا   كوريا الشمالية تعديل مصدري - تعديل   العلاقات الساموية الكورية الشمالية هي العلاقات الثنائية التي تجمع بين ساموا وكوريا الشمالية.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عا...

Templat:Nama orang MinangkabuRamadanil Pitopang300x300px BiografiKelahiran13 September 1964 (59 tahun)Koto Nan IV Data pribadiKelompok etnikOrang Minangkabau AgamaIslam PendidikanInstitut Pertanian Bogor (2002–2006)Institut Teknologi Bandung (1992–1994)Universitas Andalas (1983–1989) KegiatanPekerjaanahli botani, akademisi Karya kreatifSingkatan nama ahli botaniPitopang Prof. Dr. Ramadanil Pitopang, M.Si (lahir 13 September 1964) adalah seorang ahli botani, pengajar, dan...

 

Pour les articles homonymes, voir Nativité (homonymie). La Nativité par Jean Bourdichon, Livre d'heures de Louis XII, XVe siècle. Nativité d'Andreï Roublev La Nativité est la naissance de Jésus de Nazareth à Bethléem, en Judée. La date de cette naissance a été retenue comme le début de l'ère chrétienne dans le calendrier grégorien. La Nativité est célébrée le 25 décembre par les chrétiens de l'Occident (y compris l'Église catholique, les orthodoxes de rite occidental e...

 

George William Casey JrNascitaSendai (Giappone), 12 luglio 1948 Mortevivente Dati militariPaese servito Stati Uniti Forza armata United States Army Anni di servizio1970-in servizio GradoGenerale GuerreGuerra in Iraq BattaglieOperazione Joint Endeavor Comandante diCapo di stato maggiore dell'Esercito degli Stati Uniti Coalizione multinazionale in Iraq Vice capo di stato maggiore dell'Esercito degli Stati Uniti 1st Armored Division United States Joint Forces Command 3rd Brigade, 1...

Pour les articles homonymes, voir Yuanguang. Yuanguang 134 av. J.-C.-129 av. J.-C. Dynastie Han occidentaux Empereur Wudi des Han, Liu Che Durée 6 ans Précédente Jianyuan Suivante Yuanshuo Yuanguang - Deuxième ère de l'empereur Wudi des Han occidentaux. modifier  « Étoile à queue de tigre » (comète C/1664 W1), dessin du journal de Hitoshi Saburō, Japon, 1665. L'ère Yuanguang, ou Yuan-kouang (135-129 av. J.-C.) (chinois traditionnel et simplifié : 元光&...

 

Questa voce sull'argomento calciatori congolesi (Rep. Dem. del Congo) è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Serge Mputu Nazionalità  RD del Congo Altezza 178 cm Calcio Ruolo Attaccante Termine carriera 2012 Carriera Squadre di club1 1998-1999 Paulino? (?)1999-2000 Al-Hilal Omdurman? (?)2001 Lokeren2 (0)2001-2002 KRC Harelbeke29 (7)2002-2003 Lokeren10 (0)2003-200...

 

Hotel del LunaPoster promosiHangul호텔 델루나 GenreFantasiPembuatStudio DragonDitulis olehHong Jung-eunHong Mi-ranSutradaraOh Choong-hwanPemeranLee Ji-eunYeo Jin-gooPyo Ji-hoonKang Mi-naNegara asalKorea SelatanBahasa asliKoreaJmlh. episode16ProduksiProduser eksekutifKim Kyu-taePengaturan kameraSingle-cameraRumah produksiGT:stDistributortvNRilis asliJaringantvN NET.Format gambar1080i (HDTV)Format audioDolby DigitalRilis13 Juli (2019-07-13) –1 September 2019 (2019-9-1) Ho...

Cycling race Six Days of Ghent2023 Six Days of GhentRace detailsDateNovemberRegionGhent, BelgiumLocal name(s)Zesdaagse Vlaanderen-Gent (in Dutch)DisciplineTrackTypeSix-day racingWeb sitelottozesdaagse.be HistoryFirst edition1922 (1922)Editions82 (as of 2023)First winner Marcel Buysse (BEL) Oscar Egg (SUI)Most recent Lindsay De Vylder (BEL) Robbe Ghys (BEL) The Six Days of Ghent (Dutch: Zesdaagse Vlaanderen-Gent) is a six-da...

 

Route of Via Praenestina from Rome in a map of ancient Latium. Roman Ponte di Nona Ponte amato Via Praenestina near Ponte Amato The Via Praenestina (modern Italian: Via Prenestina) was an ancient Roman road in central Italy. Initially called Via Gabiana, from Gabii, the ancient city of Old Latium to which it ran, it received a new name having been extended as far as Praeneste (modern Palestrina). Once past Praeneste the road continued towards the Apennines and the source of the Anio River. At...

 

Disambiguazione – Se stai cercando la modella russa, vedi Tat'jana Kotova (modella). Tat'jana Kotova Tat'jana Kotova (sulla destra) mentre festeggia per la medaglia di bronzo ai Mondiali 2007. Nazionalità  Russia Altezza 182 cm Peso 59 kg Atletica leggera Specialità Salto in lungo Record Salto in lungo 7,42 m Palmarès Competizione Ori Argenti Bronzi Giochi olimpici 0 0 2 Mondiali 0 2 1 Mondiali indoor 2 2 0 Europei 1 0 0 Europei under 23 1 0 0 Vedi maggiori dettagli   Modifica...

此條目可能包含不适用或被曲解的引用资料,部分内容的准确性无法被证實。 (2023年1月5日)请协助校核其中的错误以改善这篇条目。详情请参见条目的讨论页。 各国相关 主題列表 索引 国内生产总值 石油储量 国防预算 武装部队(军事) 官方语言 人口統計 人口密度 生育率 出生率 死亡率 自杀率 谋杀率 失业率 储蓄率 识字率 出口额 进口额 煤产量 发电量 监禁率 死刑 国债 ...

 

Die Marinekaserne Gedenkstein für Admiral Wilhelm von Tegetthoff Die Marinekaserne ist eine ehemalige Kaserne in der Kuchelauer Hafenstraße 100 im 19. Wiener Gemeindebezirk Döbling. Die direkt an der Donau gelegene Kaserne wurde 1938 nach dem Einmarsch für die deutsche Wehrmacht errichtet. Während der Besatzungszeit waren hier Einheiten der Roten Armee einquartiert. 1955 übernahm das Österreichische Bundesheer die später Marinekaserne Tegetthoff benannte Kaserne, deren Schließung 200...

 

Lehmziegel trocknen in der Sonne auf der Isla del Sol, Titicacasee, Bolivien. Ein Lehmziegel ist ein mit den Händen oder mit einer Verschalung geformter und luftgetrockneter Quader aus Lehm, der im Lehmbau benutzt wird. Fettem Lehm wird Sand beigemischt und manchmal werden faserhaltige Stoffe wie Stroh oder Tierkot von Pflanzenfressern wie Kamel, Rind und Pferd beigegeben. Pflanzenfasern verringern das Gewicht, verbessern die Wärmedämmung und geben Zugfestigkeit, so dass die Rissbildung w�...

الوجه ذو الندبةScarface (بالإنجليزية) الشعارملصق الفلممعلومات عامةالتصنيف film remake (en) الصنف الفني فيلم جريمة — فيلم دراما[1] — فيلم أكشن المواضيع  القائمة ... جريمة منظمة[1] — تهريب المخدرات[1] — بارون مخدرات — كوكايين[1] — جنون العظمة[2] — rags to riches (en) [3] �...

 

Football tournament season Clausura 2018 Copa MXClausura 2018 Copa Corona MXTournament detailsCountryMexicoTeams27Final positionsChampionsNecaxa (4th title)Runner-upTolucaTournament statisticsMatches played69Goals scored178 (2.58 per match)Attendance677,061 (9,812 per match)Top goal scorer(s)Alexis Canelo(7 goals)← Apertura 2017Apertura 2018 → The Clausura 2018 Copa MX (officially the Clausura 2018 Copa Corona MX for sponsorship reasons) was the 79th ...

 

Skyscraper in Manhattan, New York Reuters Building redirects here. For the building in London sometimes referred to by the same name, see 30 South Colonnade. 3 Times SquareThe southwest corner as seen from 42nd Street and Seventh AvenueGeneral informationStatusCompletedTypeCommercialLocation3 Times SquareManhattan, New York 10036, U.S.Coordinates40°45′24″N 73°59′13″W / 40.75667°N 73.98694°W / 40.75667; -73.98694Construction started1998Opening2001OwnerNew Yo...

Этот перевод статьи с другого языка требует улучшения (см. Рекомендации по переводу). Вы можете помочь улучшить перевод. Оригинал можно найти слева в списке языков.Статья, целиком являющаяся машинным переводом, может быть удалена на основании критерия быстрого удаления �...

 

Swedish cross-country skier This article is about the Swedish cross country skier. For the American banking executive, see John R. Lindgren. For other people, see John Lindgren (disambiguation). John LindgrenJohn Lindgren during the 1920sPersonal informationBorn8 November 1899Hedlunda, SwedenDied30 January 1990 (aged 90)Lycksele, SwedenHeight170 cm (5 ft 7 in)SportSportCross-country skiingClubLycksele IF Medal record Men's cross-country skiing Representing  Sweden World Ch...