DFFITS は統計学 の回帰分析 において、ある点の影響度を示す統計量 である。1980年に出版されたベルスレー、クー、ウェルシュ共著の『回帰診断:影響の強いデータと共線形性の源泉を同定する』[ 1] で提案された。
DFFITS は 問題の点を回帰から外した場合の予測(回帰)値の変化 "DFFIT" を問題の点での当てはめの標準偏差の推定値で割って(スチューデント 化、'S')したものである。
DFFITS
=
y
i
^ ^ -->
− − -->
y
i
(
i
)
^ ^ -->
s
(
i
)
h
i
i
.
{\displaystyle {\text{DFFITS}}={{\widehat {y_{i}}}-{\widehat {y_{i(i)}}} \over s_{(i)}{\sqrt {h_{ii}}}}.}
ここで
y
i
^ ^ -->
{\displaystyle {\widehat {y_{i}}}}
と
y
i
(
i
)
^ ^ -->
{\displaystyle {\widehat {y_{i(i)}}}}
は点 i が回帰に含まれた場合と除かれた場合の予測値である。
s
(
i
)
{\displaystyle s_{(i)}}
は問題の点を含まずに推定された標準誤差の値である。
h
i
i
{\displaystyle h_{ii}}
は その点のてこ値 である。
DFFITS は外部スチューデント化残差 に似ている。実はそれを
h
i
i
/
(
1
− − -->
h
i
i
)
{\displaystyle {\sqrt {h_{ii}/(1-h_{ii})}}}
倍したものである[ 2] 。誤差が正規分布 するとき、外部スチューデント化残差はスチューデントのt分布 (自由度 は(残差の自由度−1))する。ある点での DFFITS とその点でのテコ因子
h
i
i
/
(
1
− − -->
h
i
i
)
{\displaystyle {\sqrt {h_{ii}/(1-h_{ii})}}}
との積は同じt分布をする。したがって、テコ値の小さい点では DFFITS は小さいことが期待され、テコ値が 1 に近づくと DFFITS 値の分布は無限に広がる。
完全に均衡のとれた実験計画、たとえば(因子計画 (英語版 ) や均衡部分因子計画)の場合、各点でのテコ値は
p
/
n
{\displaystyle p/n}
、すなわち母数 の個数を点の個数で割ったものである。これは DFFITS 値が(正規分布の場合)
p
n
− − -->
p
≈ ≈ -->
p
n
{\displaystyle {\sqrt {p \over n-p}}\approx {\sqrt {p \over n}}}
と t 変数の積である。したがって、同書の著者は DFFITS が
2
p
n
{\displaystyle 2{\sqrt {p \over n}}}
より大きい場合を外れ点としてチェックすることを薦めている。
類似の量にクックの距離 (英語版 ) がある。
文献
^ Belsley, David A.; Edwin Kuh, Roy E. Welsch (1980). Regression diagnostics : identifying influential data and sources of collinearity . Wiley series in probability and mathematical statistics. New York: John Wiley & Sons . ISBN 0471058564
^ Montogomery, Douglas C.; Elizabeth A. Peck (1992). “Appendix C.4” (English). Introduction to Linear Regression Analysis (2nd ed. ed.). New York: John Wiley & Sons . pp. 504-505. ISBN 0-471-53387-4