Křížová entropie

Křížová entropie mezi dvěma rozděleními pravděpodobnosti a se stejnou podkladovou množinou událostí míry je v teorii informace průměrný počet bitů potřebných pro identifikaci události vybrané z množiny, jestliže kódovací schéma používané pro množinu je optimalizované pro odhadnuté rozdělení pravděpodobnosti místo skutečného rozdělení .

Definice

Křížová entropie rozdělení vůči rozdělení na dané množině je definovaná takto:

.

Jiná definice používá Kullbackovu–Leiblerovu divergenci rozdělení z (neboli relativní entropie rozdělení vzhledem k ):

,

kde je entropie rozdělení .

Pro diskrétní pravděpodobnostní distribuce a se stejným nosičem to znamená

(rovnice 1)

Pro spojité distribuce je situace analogická. Musíme předpokládat, že a jsou absolutně spojité vzhledem k nějaké referenční míře (obvykle je Lebesgueova míra na Borelovské σ-algebře). Nechť a jsou hustoty pravděpodobností rozdělení a vzhledem k . Pak

a tedy

(rovnice 2)

Poznámka: Notace se používá také pro jinou veličinu, sdruženou entropii rozdělení a .

Motivace

Kraftova–McMillanova věta v teorii informace říká, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy identifikující jednu hodnotu ze sady možností můžeme považovat za reprezentaci implicitního rozdělení pravděpodobnosti pro , kde je délka kódu pro v bitech. Proto lze křížovou entropii interpretovat jako očekávanou délku zprávy pro zakódování jedné položky, když předpokládáme nějaké rozdělení , zatímco data mají ve skutečnosti rozdělení . To znamená, že očekávané hodnoty se berou ze skutečného rozdělení pravděpodobnosti místo z . Očekávaná délka zprávy při skutečném rozdělení je

Odhad

Je mnoho situací, kdy by bylo třeba měřit křížovou entropii, ale rozdělení je neznámé. Příkladem je jazykové modelování, kde model je vytvořen na trénovací množině a jeho křížová entropie je pak měřena na testovací množině pro zhodnocení, jak je model přesný v predikci testovacích dat. V tomto příkladě je skutečné rozdělení slov v nějakém korpusu a je rozdělení slov predikované modelem. Protože skutečné rozdělení je neznámé, nelze křížovou entropii přímo spočítat. V takovém případě se odhad křížové entropie počítá pomocí vzorce:

kde je velikost testovací množiny a je pravděpodobnost události odhadnuté z trénovací množiny. Suma se počítá přes . Toto je pravděpodobnostní (Monte Carlo) odhad skutečné křížové entropie, při kterém testovací množinu považujeme za vzorek z .

Vztah k logaritmické věrohodnosti

U klasifikačních problémů chceme odhadnout pravděpodobnost jednotlivých výsledků. Pokud odhadnutá pravděpodobnost výsledku je , zatímco frekvence (empirická pravděpodobnost) výsledku v trénovací množině je a v trénovací množině je N vzorků, pak věrohodnost trénovací množiny je

a logaritmická věrohodnost vydělená je

takže maximalizace věrohodnosti je totéž jako minimalizace křížové entropie.

Minimalizace křížové entropie

Minimalizace křížové entropie se často používá při optimalizaci a odhadu pravděpodobnosti řídkých událostí; viz metoda křížové entropie.

Při porovnávání rozdělení s pevným referenčním rozdělením jsou křížová entropie a KL divergence identické až na aditivní konstantu (protože je pevné): obě nabývají pro své minimální hodnoty, která je pro KL divergenci a pro křížovou entropii[1]. V inženýrské literatuře se postup minimalizace KL divergence (Kullbackův "Princip minimální diskriminace informace") často nazývá Princip minimální křížové entropie (MCE, z anglického Principle of Minimum Cross-Entropy) nebo Minxent.

Jak je však diskutováno v článku Kullbackova–Leiblerova divergence, někdy je rozdělení fixováno před referenčním rozdělením a rozdělení je optimalizováno, aby bylo co nejbližší k , při platnosti určitých omezení. V takovém případě obě minimalizace nejsou ekvivalentní. To vedlo k určité nejednoznačnosti v literatuře, protože někteří autoři usilovali vyřešit nekonzistenci tím, že termínem křížová entropie označují místo .

Nákladová funkce křížové entropie a logistická regrese

Křížovou entropii lze použít pro definování nákladové funkce při strojovém učení a optimalizaci. Skutečná pravděpodobnost je skutečný popisek a dané rozdělení je predikovanou hodnotou současného modelu.

Konkrétněji uvažujme logistickou regresi, kterou lze (mimo jiné) použít pro klasifikaci pozorování do dvou možných tříd (často značených a ). Výstup modelu pro určité pozorování dané vektorem vstupních vlastností lze interpretovat jako pravděpodobnost, což slouží jako základ pro klasifikaci pozorování. Pravděpodobnost je znázorněna pomocí logistické funkce kde je nějaká funkce vstupního vektoru , obvykle pouze lineární funkce. Pravděpodobnost výstupu je

kde vektor vah je optimalizován pomocí nějakého vhodného algoritmu, jako například metodou gradientního spádu. Podobně komplementární pravděpodobnost hledání výstup je

Při použití notace a můžeme používat křížovou entropii pro získání míry odlišnosti mezi a :

Typická nákladová funkce, kterou používáme v logistické regresi, se počítá jako průměr všech křížových entropií ve vzorku. Pokud například máme vzorků indexovaných , bude nákladová funkce

kde a je logistická funkce stejně jako výše.

Logistická ztráta se někdy nazývá ztráta křížové entropie nebo logaritmická ztráta (V tomto případě se třídy zpravidla označují hodnotami {-1,+1})[2].

Odkazy

Reference

V tomto článku byl použit překlad textu z článku cross entropy na anglické Wikipedii.

  1. GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep Learning. [s.l.]: MIT Press, 2016. Dostupné online. 
  2. MURPHY, Kevin. Machine Learning: A Probabilistic Perspective. [s.l.]: MIT, 2012. ISBN 978-0262018029. 

Související články

Externí odkazy