MallowsのCp [ 1] [ 2] は、最小二乗法によって推定された回帰モデル の適合度を評価するために用いられる指標である。名前はコリン・リングウッド・マローズ にちなむ。モデル選択 を行う際に用いられ、ある複数の変数から出力を予測することができるとき、その中から一部の変数を選んで最も良いモデルを見つけることが目的である。Cp の値が小さいほど、モデルが比較的正確であることを意味する。
マローズのCp は、ガウス線形回帰 という特殊な場合において赤池情報量基準 に相当することが示されている。[ 3]
定義と性質
マローズのCp は、過剰適合 の問題に対する方法である。一般にモデルの変数が増えれば増えるほど、残差平方和 などのモデル適合度の指標は常に小さくなる。したがって、残差平方和が最小となるモデルを選択する場合、常にすべての変数を含むモデルが選択されてしまう。代わりに、データのサンプル で計算されたC p 統計は、 母集団 ターゲットとして平均二乗予測誤差 (MSPE)を推定する。
E
∑ ∑ -->
j
(
Y
^ ^ -->
j
− − -->
E
(
Y
j
∣ ∣ -->
X
j
)
)
2
σ σ -->
2
{\displaystyle E\sum _{j}{\frac {({\hat {Y}}_{j}-E(Y_{j}\mid X_{j}))^{2}}{\sigma ^{2}}}}
ただし、
Y
^ ^ -->
j
{\displaystyle {\hat {Y}}_{j}}
は j 番目のケースのフィット値、E (Y j | X j ) は j 番目の ケースの期待値であり、σ2 は誤差分散(全ケース共通の定数とみなされる)である。変数が追加されても、MSPEは自動的に小さくなることはない。この基準での最適なモデルは、サンプルサイズ、さまざまな予測変数の効果量 、および変数間の共線性 の程度によって決まる。
P個の 変数がK >P であるようなK個の変数 から選択された場合、Cp は次のように定義される。
C
p
=
S
S
E
p
S
2
− − -->
N
+
2
P
,
{\displaystyle C_{p}={SSE_{p} \over S^{2}}-N+2P,}
ただし、
S
S
E
p
=
∑ ∑ -->
i
=
1
N
(
Y
i
− − -->
Y
p
i
)
2
{\displaystyle SSE_{p}=\sum _{i=1}^{N}(Y_{i}-Y_{pi})^{2}}
は、P個の 変数を持つモデルの残差平方和
Y pi は、 P リグレッサからのYの i 番目の観測の予測 値
S 2 は、 K個すべての変数 を用いて回帰分析 を行った場合の残差平均平方(residual mean square)であり、平均二乗誤差 (MSE) によって推定される。
N は標本サイズ
その他の定義
次のような線形モデルがあるとする。
Y
=
β β -->
0
+
β β -->
1
X
1
+
⋯ ⋯ -->
+
β β -->
p
X
p
+
ε ε -->
{\displaystyle Y=\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p}+\varepsilon }
ただし、
β β -->
0
,
… … -->
,
β β -->
p
{\displaystyle \beta _{0},\ldots ,\beta _{p}}
は予測変数
X
1
,
… … -->
,
X
p
{\displaystyle X_{1},\ldots ,X_{p}}
の係数
ε ε -->
{\displaystyle \varepsilon }
は誤差を表す
Cp 以下のようにも定義される [ 4] 。
C
p
=
1
n
(
RSS
+
2
d
σ σ -->
^ ^ -->
2
)
{\displaystyle C_{p}={\frac {1}{n}}(\operatorname {RSS} +2d{\hat {\sigma }}^{2})}
ただし、
RSSは、教師データセットの残差平方和
d は予測変数の数
σ σ -->
^ ^ -->
2
{\displaystyle {\hat {\sigma }}^{2}}
は線形モデルの各応答に関連する分散の推定値を指す(すべての予測子を含むモデルで推定される)
この定義によるCp の値は、前掲の定義によるCp の値と等しくないが、いずれの定義においてもCp を最小にするようなモデルは同一である。
制約
Cp 基準には主に2つの制約がある[ 5] 。
Cp 近似は大きなサンプルサイズに対してのみ有効である。
Cp は 変数選択(または特徴選択 )の問題のようなモデルの複雑な集合を扱うことができない[ 5] 。
実用
関連項目
参考文献
^ Mallows, C. L. (1973). “Some Comments on CP ”. Technometrics 15 (4): 661–675. doi :10.2307/1267380 . JSTOR 1267380 .
^ Gilmour, Steven G. (1996). “The interpretation of Mallows's Cp -statistic”. Journal of the Royal Statistical Society, Series D 45 (1): 49–56. JSTOR 2348411 .
^ Boisbunon, Aurélie; Canu, Stephane. "AIC, Cp and estimators of loss for elliptically symmetric distributions". arXiv :1308.2766 [math.ST ]。
^ James, Gareth; Witten; Hastie; Tibshirani (2013-06-24). An Introduction to Statistical Learning . http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf : Springer. pp. 211. ISBN 978-1-4614-7138-7
^ a b Giraud, C. (2015), Introduction to high-dimensional statistics , Chapman & Hall/CRC, ISBN 9781482237948
参照