Wszystkie cztery zestawy danych wydają się być identyczne, jeżeli weźmiemy pod uwagę ich charakterystykę statystyczną, ale znacznie różnią się od siebie w ujęciu graficznym
Kwartet Anscombe'a to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna , wariancja , współczynnik korelacji czy równanie regresji liniowej , jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym. Układ tych danych został stworzony w 1973 roku przez brytyjskiego statystyka Francisa Anscombe'a aby ukazać znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej.
Cechy układów
Cecha
Wartość
Średnia arytmetyczna zmiennej x
9
Wariancja zmiennej x
11
Średnia arytmetyczna zmiennej y
7.50 (identyczna do dwóch cyfr po przecinku)
Wariancja zmiennej y
4.122 lub 4.127 (identyczna do trzech cyfr po przecinku)
Współczynnik korelacji pomiędzy zmiennymi
0.816 (identyczny do trzech cyfr po przecinku)
Równanie regresji liniowej
y
=
3.00
+
0.500
x
{\displaystyle y=3.00+0.500x}
(identyczny do kolejno: dwóch i trzech miejsc po przecinku)
Współczynnik determinacji R²
0,666 (różnica pojawia się dopiero na czwartym miejscu po przecinku)
Dane wejściowe
Poniższa tabela zawiera dane wejściowe użyte przez Anscombe'a do przedstawienia problemu.
Kwartet Anscombe'a
I
II
III
IV
x
y
x
y
x
y
x
y
10.0
8.04
10.0
9.14
10.0
7.46
8.0
6.58
8.0
6.95
8.0
8.14
8.0
6.77
8.0
5.76
13.0
7.58
13.0
8.74
13.0
12.74
8.0
7.71
9.0
8.81
9.0
8.77
9.0
7.11
8.0
8.84
11.0
8.33
11.0
9.26
11.0
7.81
8.0
8.47
14.0
9.96
14.0
8.10
14.0
8.84
8.0
7.04
6.0
7.24
6.0
6.13
6.0
6.08
8.0
5.25
4.0
4.26
4.0
3.10
4.0
5.39
19.0
12.50
12.0
10.84
12.0
9.13
12.0
8.15
8.0
5.56
7.0
4.82
7.0
7.26
7.0
6.42
8.0
7.91
5.0
5.68
5.0
4.74
5.0
5.73
8.0
6.89
Bibliografia
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 lutego 1973, s. 17-21.
Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254.