심슨의 역설(Simpson's paradox)은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다. 이 현상은 사회과학이나 의학 통계 연구에서 종종 발생한다.[1][2][3] 심슨의 역설은 통계의 함정이 유발할 수 있는 잘못된 결과를 설명하는 데 쓰이기도 한다.
에드워드 심슨이 1951년 처음으로 이 현상을 설명한 것으로 알려져 있으나,[4] 1899년 칼 피어슨[5], 1903년 우드니 율[6]이 유사한 현상에 관해 설명한 적이 있다. "심슨의 역설"이라는 이름은 1972년 콜린 블리스라는 학자가 사용하였다.[7]
사례
신장결석 치료법
심슨의 역설을 보여주는 하나의 사례는 신장결석 치료법에 관한 의학 연구이다.[8][9]
아래의 표는 작은 크기의 신장결석과 큰 크기의 신장결석에 대해 두 가지 치료법을 적용한 결과 성공률을 나타낸 표이다.
치료법
결석 크기
치료법 A
치료법 B
작은 결석
그룹 1 93% (81/87)
그룹 2 87% (234/270)
큰 결석
그룹 3 73% (192/263)
그룹 4 69% (55/80)
모두
78% (273/350)
83% (289/350)
작은 결석과 큰 결석 모두에서 치료법 A의 성공률이 높게 나왔지만, 결석의 크기를 구분하지 않고 합친 경우에는 치료법 B의 성공률이 높은 결과가 나왔다. 이 사례에서는 결석의 크기라는 숨겨진 변수 또는 혼재변수가 각 치료법의 성공률에 영향을 미친 경우에 해당된다. 결석의 크기에 따라 성공률 자체가 달라지며, 결석의 크기 등과 같은 환자의 특성에 따라 선택하는 치료법이 달라진다는 것[9]이 심슨의 역설 현상을 낳게 하였다.
벡터 해석
심슨의 역설은 2차원 벡터의 기울기를 비교하는 방법으로 보일 수 있다.[10] B1은 L1보다 가파르고, B2 역시 L2보다 가파른 경우에도 B1+B2는 L1+L2보다 완만한 기울기를 가질 수 있다.
↑
Simpson, Edward H. (1951). “The Interpretation of Interaction in Contingency Tables”. 《Journal of the Royal Statistical Society, Series B》 13: 238–241.
The Wall Street Journal column "The Numbers Guy" for December 2, 2009 dealt with recent instances of Simpson's paradox in the news. Notably a Simpson's paradox in the comparison of unemployment rates of the 2009 recession with the 1983 recession.