Heteroskedastyczność

Heteroskedastyczność (lub heteroscedastyczność[1]) – pojęcie z zakresu statystyki odnoszące się do ciągu lub wektora zmiennych losowych. Własność ta jest zaprzeczeniem posiadania przez taki ciąg lub wektor własności homoskedastyczności, tzn. przynajmniej jedna zmienna losowa z ciągu różni się od innych wariancją lub jej wariancja jest nieskończona. Heteroskedastyczność rozważa się w kontekście modeli ekonometrycznych, szczególnie przy estymacji metodą najmniejszych kwadratów, ze względu na jedno z założeń Klasycznego Modelu Regresji Liniowej, mówiącego o homoskedastyczności wariancji składnika losowego. Możemy wyróżnić heteroskedastyczność addytywną, gdy wariancja składnika losowego jest funkcją afiniczną zmiennych wpływających na jej wielkość, oraz heteroskedastyczność multiplikatywną, gdy wariancja przyjmuje postać wykładniczą.

Przyczyny

Na wystąpienie heteroskedastyczności może mieć wpływ zarówno niepoprawna forma funkcyjna modelu, jak i ominięcie istotnych zmiennych. Przykładem jest model popytu, kiedy zainteresowanie danym produktem uzależniane jest jedynie od jego ceny. Wówczas wpływ cen pozostałych produktów oraz wielkość dochodu będzie uwzględniona w wielkości składnika losowego. Kolejnym istotnym czynnikiem mogącym wywołać heteroskedastyczność jest jakość zbioru danych. W tym przypadku wariancja błędu losowego może w istotny sposób wynikać z błędnych obserwacji. Sytuacja ta może mieć miejsce podczas opracowywania modelu wzrostu PKB. Wówczas bazowanie na danych z krajów postsowieckich czy Afryki może wiązać się z licznymi błędami i skutkować niepożądanym charakterem wariancji. Częstym powodem braku homoskedastyczności jest po prostu natura badanego zjawiska. Zauważyć to można podczas analizy wagi ciała. W grupie dzieci zaraz po urodzeniu wariancja jest niewielka, natomiast 10 lat później można się spodziewać, iż będzie ona znacznie wyższa. Ponadto wystąpienie heteroskedastyczności jest bardzo prawdopodobne w przypadkach, kiedy wysoka wartość zmiennej zależnej jest warunkiem koniecznym, ale niewystarczającym do osiągania wysokiej wartości zmiennej zależnej. Heteroskedastyczność częściej występuje w przypadku danych przekrojowych niż szeregów czasowych.

Skutki

W przypadku występowania heteroskedastyczności uzyskane estymatory są nieobciążone i zgodne, ale nieefektywne. Obciążone mogą być natomiast estymatory wariancji składnika losowego, co wiąże się zazwyczaj z niedoszacowaniem średnich błędów estymatorów parametrów, nieprawidłowymi przedziałami ufności, a w konsekwencji prowadzi do błędnego wnioskowania statystycznego.

Testy na obecność heteroskedastyczności

Nieformalnym sposobem na sprawdzenie istnienia heteroskedastyczności jest analiza graficzna reszt z modelu. Istnieje jednak wiele formalnych testów pozwalających zbadać hipotezę o istnieniu heteroskedastyczności.

W przypadku modeli regresji są to:

Do testów stosowanych dla danych pogrupowanych należą:

Sposoby likwidacji heteroskedastyczności

  • Dodanie nowych zmiennych wyjaśniających przyczyny niejednorodnej wariacji zmiennej zależnej przy niskich lub wysokich wartościach zmiennej niezależnej,
  • Transformacja zmiennej zależnej poprzez:
    • podzielenie zmiennej zależnej przez zmienna niezależną,
    • pomnożenie zmiennej zależnej przez zmienna niezależną,
    • logarytmowanie zmiennych,
    • pierwiastkowanie zmiennych,
  • Podział zbioru na podgrupy o jednorodnej wariancji,
  • Stosowanie specjalnych modeli ARCH.

Ponadto można zastosować następujące metody (nie likwidują heteroskedastyczności, ale minimalizują jej wpływ na poprawność oszacowań parametrów)

  • Ważona metoda najmniejszych kwadratów,
  • Odporny estymator White’a macierzy kowariancji.

Zobacz też

Przypisy

  1. Nazwa, z angielskiego „heteroskedasticity” lub „heteroscedasticity” pochodzi od dwóch greckich słów: hetero-, „różny”. oraz -skedannumi, „rozpraszać”; choć właściwa angielska pisownia sugeruje tłumaczenie 'kappa' jako 'k' w przypadku pojęć greckiego pochodzenia, to funkcjonuje także nazwa pisana przez 'c', używana chociażby w pracach Goldfelda i Quandta oraz Chowa

Bibliografia

  • J. Huston McCulloch. On Heteroskedasticity. „Econometrica”. 53 (2). s. 483. 
  • Christopher Dougherty: Introduction to Econometrics. Oxford University Press, 2011, s. 280-299.