In de beschrijvende statistiek is een boxplot, snorrendoos, doosdiagram of kader-met-staafdiagram een grafische weergave van de vijf-getallensamenvatting. Deze vijf-getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of tweede kwartiel), het derde kwartiel en het maximum van de waargenomen data. Een boxplot is daarmee een weliswaar sterk vereenvoudigde, maar zeer bruikbare, voorstelling van de verdeling van de data. De boxplot is in 1977 geïntroduceerd door de wiskundige John Tukey.
Teken boven een horizontale of naast een verticale getallenrechte een doos begrensd door het eerste en derde kwartiel. De hoogte van de doos is willekeurig, maar wordt zo gekozen dat de doos er redelijk uitziet.
Deel de doos in tweeën door een lijn bij de mediaan.
Geef eventueel de plaats van het gemiddelde aan door een + of een stip.
Data die meer dan 1,5xIKA van de einden van de doos verwijderd liggen, worden als uitschieters beschouwd.
Geef de kleinste en grootste data die niet als uitschieter beschouwd worden, aan door een streepje en verbind dit door een lijn met de box.
Voorbeeld
Het voorbeeld toont een eenvoudige tekstversie van een boxplot.
de waarde 3,5 is een "zwakke" uitschieter omdat hij tussen 1,5×IKA en 3×IKA onder Q1 ligt
de waarde 0,5 is een "extreme" uitschieter omdat hij meer dan 3×IKA onder Q1 ligt
de kleinste waarde die geen uitschieter is, is 5
de data zijn scheef naar links (negatief scheef) verdeeld
De horizontale lijnen (de "whiskers") strekken zich uit van de onder- resp. bovengrens van de box tot maximaal 1,5 keer de breedte van de box (de interkwartielafstand). De whiskers eindigen in een waargenomen waarde. Een afstand van drie keer de boxbreedte (= 3xIKA) vanaf de box is de grens tussen zwakke en extreme uitschieters.
Er zijn echter alternatieve implementaties van dit laatste detail van een boxplot. Zo kiezen verschillende softwarepakketten ervoor om de whiskers te verlengen tot het 5e en 95ste percentiel. Deze benaderingen stroken niet met John Tukeys definitie die de nadruk legt op de mediaan. Ervoor kiezen om de lengte vast te leggen op het 5e en 95ste percentiel, brengt met zich mee dat er in iedere dataset met meer dan 10 waarden uitschieters zullen voorkomen, ongeacht de vorm van de verdeling. Daarom wordt meestal standaard John Tukeys methode, zoals hierboven beschreven, gebruikt.