Współczynnik determinacji R² – jedna z miarjakości dopasowania modelu do danych uczących. Jego dopełnieniem jest współczynnik zbieżności, Występuje obecnie w wielu wariantach stosujących różnorodne poprawki. Jego pierwotne opracowanie przypisuje się m.in. publikacji Sewalla Wrighta z 1921, która opiera się z kolei m.in. na artykule K. Pearsona z 1897[1].
Obecnie, współczynnik determinacji wykorzystuje się głównie w celach pomocniczych. Lepszymi narzędziami do tego celu są np. kryteria informacyjne AIC, BIC, czy sprawdzian krzyżowy. Już Wright nie przedstawiał R² jako wyczerpującej miary dopasowania modelu do badanego zjawiska, szczególnie nie w sensie wyjaśnienia przyczynowego. Współczynnik determinacji opisuje jedynie oszacowaną na podstawie próby macierz wielokrotnej korelacji obecnych w modelu zmiennych, przy założeniu prawdziwości modelu. Ignoruje dopasowanie modelu do danych spoza próby, oraz problem pominiętych zmiennych. Maksymalizacja tej miary prowadzi do nadmiernego dopasowania modelu do danych uczących[2][3][4][5]. Schmueli uznaje w tym kontekście tradycję opisywania korelacji zmiennych jako ich wzajemnego wyjaśniania lub determinacji – co może sugerować wytłumaczenie przyczynowe – za szczególnie zwodniczą[6].
Współczynnik determinacji
Informuje o tym, jaka część zmienności (wariancji) zmiennej objaśnianej w próbie pokrywa się z korelacjami ze zmiennymi zawartymi w modelu. Jest on więc miarą stopnia, w jakim model pasuje do próby. Współczynnik determinacji przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R² jest bliższa jedności. Wyraża się on wzorem:
Współczynnik ma jasną interpretację tylko w sytuacji, gdy współczynniki modelu zostały wyestymowane metodą najmniejszych kwadratów i w modelu występuje wyraz wolny. Wówczas i R^2 można interpretować jako miarę dopasowania modelu do danych.
Dowód.
Ostatnią sumę możemy rozpisać
Pierwsza z tych sum jest równa
Z powyższego rachunku wynika także, że w metodzie najmniejszych kwadratów macierz jest ortogonalna do wektora reszt tzn.
Jeżeli w modelu występuje wyraz wolny, to macierz zwiera kolumnę, a macierz – rząd jedynek. W takiej sytuacji tożsamość implikuje równość
i otrzymujemy
Wówczas
Współczynnik zbieżności
Współczynnik zbieżności określa, jaka część zaobserwowanej w próbie zmienności zmiennej objaśnianej nie pasuje do modelu (mieści się w jego błędzie). Współczynnik zbieżności przyjmuje wartości z przedziału [0;1]; wartości te najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość jest bliższa zeru. Wyraża się on wzorem:
lub też (jeżeli w modelu występuje wyraz wolny, a współczynniki zostały wyestymowane metodą najmniejszych kwadratów)
gdzie oraz są określone jak w części poprzedniej.
Przypisy
↑SewallS.WrightSewallS., Correlation and causation, „Journal of agricultural research”, 20 (7), 1921, s. 557–585.