Boxplot

Obrázek 1: Box plot dat z Michelson–Morleyova experimentu
Obrázek 2: Boxplot s vousy od minima po maximum

V deskriptivní (popisné) statistice je boxplot neboli krabicový graf či krabicový diagram jeden ze způsobů grafické vizualizace numerických dat pomocí jejich kvartilů. Střední „krabicová“ část diagramu je shora ohraničena 3. kvartilem, zespodu 1. kvartilem a mezi nimi se nachází linie vymezující medián. Boxploty mohou obsahovat také linie vycházející ze střední části diagramu kolmo nahoru a dolů, tzv. vousy, vyjadřující variabilitu dat pod prvním a nad třetím kvartilem. Odlehlé hodnoty, tzv. outliery, pak mohou být vykresleny jako jednotlivé body.

Boxploty zobrazují rozdíly mezí datovými soubory bez jakýchkoli předpokladů normálního rozdělení dat, jsou tedy neparametrické. Rozteče mezi jednotlivými prvky střední části diagramu indikují stupeň disperze (rozptylu) a šikmosti dat. Kromě bodů samotných umožňují také vizuálně odhadnout různé L-estimátory, zejména rozmezí mezi kvartily, rozsah dat, aritmetický průměr a vážený průměr. Boxploty mohou být vykresleny vodorovně nebo svisle.

Typy boxplotů

Obrázek 3: Stejný Boxplot s vousy po 1,5 IQR

Boxploty jsou vždy jednotné ve významu střední „krabicové“ části diagramu. Horní a spodní hranice označují 3. a 1. kvartil a horizontální linie uvnitř značí vždy druhý kvartil (medián). Vousy však mohou reprezentovat několik různých hodnot, mezi nimi např.:

  • minimum a maximum všech dat[1] (viz obrázek 2)
  • nejnižší údaj 1,5 IQR spodního kvartilu a nejvyšší údaj 1,5 IQR horního kvartilu[2][3] (viz obrázek 3)
  • jedna standardní odchylka nad a pod střední hodnotou dat
  • 9. a 91. percentil
  • 2. a 98. percentil

Veškerá data nezahrnutá mezi vousy by měla být vykreslena jako outliery tečkou, kroužkem, nebo hvězdičkou. Občas však zakreslena nebývají.

Některé boxploty obsahují navíc znak reprezentující aritmetický průměr dat.[2]

Na některých boxplotech jsou vousy po celé své délce doplněny šrafováním.

Vzácně se boxploty vyskytují úplně bez vousů.

Vzhledem k této různorodosti je vhodné popsat užitou konvenci používání vousů a extrémních hodnot v popisu diagramu.

Varianty

Obrázek 4: Čtyři boxploty, bez zářezů, se zářezy, s proměnnou šířkou

Několik variant boxplotů bylo popsáno výše. Dva nejběžnější typy jsou boxplot s proměnlivou šířkou a zubatý boxplot (viz obrázek 4).

Boxploty s proměnlivou šířkou znázorňují velikost každé skupiny dat pomocí šířky střední části diagramu. Oblíbenou konvencí je zakreslit šířku grafu úměrnou druhé mocnině velikosti skupiny.[1]

Boxploty se zářezy používají „zářezy“ nebo zúžení střední části diagramu v okolí mediánu. Zářezy ukazují i hrubou významnost rozdílu mediánů. Pokud se zářezy dvou boxplotů nepřekrývají, existuje pravděpodobně statisticky významný rozdíl mezi mediány.[1] Šířka zářezů je úměrná mezikvartálnímu rozmezí vzorku a nepřímo úměrná druhé odmocnině z velikosti vzorku. Nicméně existuje nejistota ohledně nejvhodnějšího koeficientu (může se lišit v závislosti na podobnosti rozptylů vzorků).[1] Jednou z konvencí je .[3]

Vizualizace

Obrázek 5: Boxplot a funkce rozdělení pravděpodobnosti normálního N(0,1σ2) rozdělení

Boxplot je rychlý způsob zkoumání jedné nebo více sad dat graficky. Boxploty se mohou zdát primitivnější než histogram nebo odhad hustoty jádra, ale mají některé výhody. Zabírají méně místa, a proto jsou zvláště užitečné pro porovnávání rozdělení četností mezi několika datovými sadami (viz obrázek 1). Volba počtu a šířky košových technik může výrazně ovlivnit vzhled histogramu a volba šířky pásma může silně ovlivnit vzhled odhadu hustoty jádra.

Ač pohled na statistické rozložení pravděpodobnosti je intuitivnější než pohled na boxplot, porovnání boxplotu s distribuční funkcí rozdělení pravděpodobnosti (teoretický histogram) pro normální N(0,1σ2) rozdělení může být užitečným nástrojem pro pochopení boxplotu (viz obrázek 5).

Reference

V tomto článku byl použit překlad textu z článku Box plot na anglické Wikipedii.

  1. a b c d MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. Variations of Box Plots. The American Statistician. 1978, s. 12–16. DOI 10.2307/2683468. JSTOR 2683468. 
  2. a b FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. Some Implementations of the Boxplot. The American Statistician. 1989, s. 50–54. DOI 10.2307/2685173. JSTOR 2685173. 
  3. a b R: Box Plot Statistics [online]. [cit. 2011-06-26]. Dostupné online. 

Externí odkazy