기술 통계학에서 '상자 수염 그림'(box-and-whisker plot, box-and-whisker diagram) 또는 '상자 그림'(box plot, boxplot)은 수치적 자료를 표현하는 그래프이다. 이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, five-number summary)를 가지고 그린다. 이 때 5가지 요약 수치란 최솟값, 제 1사분위(), 제 2사분위(), 제 3사분위(), 최댓값을 일컫는 말이다. 히스토그램과는 다르게 집단이 여러개인 경우에도 한 공간에 수월하게 나타낼수 있다.
용어
백분위 수 : 데이터를 백등분 한 것
사분위 수 : 데이터를 4등분 한 것
중위수 : 데이터의 정 가운데 순위에 해당하는 값.(관측치의 절반은 크거나 같고 나머지 절반은 작거나 같다.)
제 3사분위 수 (Q3) : 중앙값 기준으로 상위 50% 중의 중앙값, 전체 데이터 중 상위 25%에 해당하는 값
제 1사분위 수 (Q1) : 중앙값 기준으로 하위 50% 중의 중앙값, 전체 데이터 중 하위 25%에 해당하는 값
사분위 범위 수(IQR) : 데이터의 중간 50% (Q3 - Q1)
유형
상자와 수염은 제4분위수를 표시하고 상자 안의 밴드는 항상 제2분위수(중간값)을 표시한다. 그러나 수염의 끝은 여러 가지 가능한 대안 값을 나타낼 수 있다.
모든 데이터의 최소값과 최대값
여전히 1.5내의 최저 데이터 IQR 하부의 분위, 및 상부 분위수 1.5 IQR 내에 여전히 최고 데이터
데이터 평균 이상 표준편차 1개
9 백분위 수 및 91 백분위 수
2백분위 수 및 98 백분위 수
수염 사이에 포함되지 않은 모든 데이터는 점, 작은 원 또는 별이 있는 이상치로 구성되어야하지만 때론 완성되지 않는다.
일부 박스 플롯에는 데이터의 평균을 나타내는 추가 문자가 포함된다.
일부 박스 플롯에서는 수염이 끝나기 전에 각 수염에 크로스 해치가 배치된다.
드물게 박스 플롯에는 수염이 표시되지 않는다.
일반적으로 2 %, 9 %, 91 %, 98 %의 비정상적인 백분위 수염은 7 개 수의 요약을 표시하기 위해 수염 모양의 해치 및 수염면에 사용된다. 데이터가 정상적으로 분배 되면 상자 플롯의 7 개 표시가 같은 간격으로 배치된다.
변형
수학자 John W. Tukey가 1969년에 이러한 유형의 시각적 데이터 디스플레이를 도입한 이래로 전통적인 상자 그림의 여러 변형이 설명되었다. 가장 일반적인 두 가지는 가변 폭 상자 그림과 노치 상자 그림이다.
가변 폭 상자 그림은 상자의 너비를 그룹의 크기에 비례하게 하여 데이터가 그려지는 각 그룹의 크기를 보여준다. 상자 너비를 그룹크기의 제곱근에 비례하게 만드는 것이 일반적이다.
노치 상자 수염 그림은 중앙에 “노치”디자인을 넣거나 좁게 만든다. 노치는 중앙값의 차이에 대한 대력적인 지침을 제공하는 데 유용하다. 두 상자의 노치가 겹치지 않으면 중앙값간에 통계적으로 유의한 차이가 있다는 증거가 된다. 노치의 너비는 사료의 사분위범위(IQR)에 비례하며 시료 크기의 제곱근에 반비례한다. 그러나 가장 적절한 승수에 대한 불확실성이 있다.(샘플의 분산의 유사성에 따라 달라질 수 있음.)
시각화
상자 수염 그림을 사용하면 하나 이상의 데이터 세트를 빠르게 그래픽으로 검사할 수 있다. 상자 수염 그림은 히스토그램 또는 커널 밀도 추정보다 원시적인 것처럼 보일 수 있지만 이점이 있다. 상자 수염그림은 적은 공간을 차지하므로 여러 그룹 또는 데이터 세트 사이의 분포를 비교할 때 특히 유용하다. 저장소의 수와 폭을 선택하면 히스토그램의 모양에 크게 영향을 줄 수 있으며 대역폭을 선택하면 커널 밀도 추정의 모양에 크게 영향을 미칠 수 있다.
상자 수염 그림을 보는 것보다 통계 분포를 보는 것이 더 평범하기 때문에 상자 수염 그림을 일반 분포에 대한 확률 밀도 함수와 비교하면 상자 수염 그림을 이해하는 데 유용한 도구가 될 수 있다.
그리는 방법
주어진 데이터에서 각 사분위수를 계산한다.
그래프에서 제1 사분위와 제3 사분위를 밑변으로 하는 직사각형을 그리고, 제 2사분위에 해당하는 위치에 선분을 긋는다.
사분위수 범위(IQR, Interquartile range, )를 계산한다.
과 차이가 1.5IQR 이내인 값 중에서 최댓값을 과 직선으로 연결하고, 마찬가지로 과 차이가 1.5IQR 이내인 값 중에서 최솟값을 과 연결한다.
보다 1.5IQR 이상 초과하는 값과 보다 1.5IQR 이상 미달하는 값은 점이나, 원, 별표 등으로 따로 표시한다(이상치 점).