Die Verzerrung oder auch das Bias oder systematischer Fehler [ 1] einer Schätzfunktion ist in der Schätztheorie , einem Teilgebiet der mathematischen Statistik , diejenige Kennzahl oder Eigenschaft einer Schätzfunktion , welche die systematische Über- oder Unterschätzung der Schätzfunktion quantifiziert .
Erwartungstreue Schätzfunktionen haben per Definition eine Verzerrung von
0
{\textstyle 0}
.
Schätzer können durch Regularisierung absichtlich verzerrt werden, um eine kleinere Varianz des Schätzers zu erreichen – es handelt sich dann um Shrinkage-Schätzer .
Definition
Gegeben sei eine zu schätzende Funktion
g
: : -->
Θ Θ -->
→ → -->
R
{\displaystyle g\colon \Theta \to \mathbb {R} }
sowie ein statistisches Modell
(
X
,
A
,
(
P
ϑ ϑ -->
)
ϑ ϑ -->
∈ ∈ -->
Θ Θ -->
)
{\displaystyle (X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })}
und ein Punktschätzer
T
: : -->
X
→ → -->
R
{\displaystyle T\colon X\to \mathbb {R} }
Dann heißt
B
T
(
ϑ ϑ -->
)
:=
E
ϑ ϑ -->
-->
(
T
)
− − -->
g
(
ϑ ϑ -->
)
{\displaystyle \mathbb {B} _{T}(\vartheta ):=\operatorname {E} _{\vartheta }(T)-g(\vartheta )}
die Verzerrung des Schätzers
T
{\displaystyle T}
bei
ϑ ϑ -->
{\displaystyle \vartheta }
.
Dabei bezeichnet
E
ϑ ϑ -->
{\displaystyle \operatorname {E} _{\vartheta }}
den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes
P
ϑ ϑ -->
{\displaystyle P_{\vartheta }}
. Man schreibt das
ϑ ϑ -->
{\displaystyle \vartheta }
in
B
T
(
ϑ ϑ -->
)
{\displaystyle \mathbb {B} _{T}(\vartheta )}
und bei
E
ϑ ϑ -->
-->
(
T
)
{\displaystyle \operatorname {E} _{\vartheta }(T)}
tiefgestellt , um hervorzuheben, dass die Größen vom wahren Wert
ϑ ϑ -->
{\displaystyle \vartheta }
abhängen.
Die Notation für die Verzerrung ist nicht einheitlich, in der Literatur finden sich u. a. auch
b
(
ϑ ϑ -->
)
{\displaystyle b(\vartheta )}
,
b
(
ϑ ϑ -->
,
T
)
{\displaystyle b(\vartheta ,T)}
oder
Bias
ϑ ϑ -->
-->
(
T
)
{\displaystyle \operatorname {Bias} _{\vartheta }(T)}
.
Die Verzerrung ist der Erwartungswert des Schätzfehlers .
Beispiel
Gegeben seien
n
{\displaystyle n}
Zufallszahlen, die gleichverteilt in einem Intervall
[
0
,
ϑ ϑ -->
]
{\displaystyle [0,\vartheta ]}
sind. Aufgabe ist,
ϑ ϑ -->
{\displaystyle \vartheta }
zu schätzen. Statistisches Modell ist
(
[
0
,
∞ ∞ -->
)
n
,
B
(
[
0
,
∞ ∞ -->
)
n
)
,
(
U
ϑ ϑ -->
n
)
ϑ ϑ -->
∈ ∈ -->
Θ Θ -->
)
{\displaystyle ([0,\infty )^{n},{\mathcal {B}}([0,\infty )^{n}),(U_{\vartheta }^{n})_{\vartheta \in \Theta })}
,
wobei
Θ Θ -->
=
(
0
,
∞ ∞ -->
)
{\displaystyle \Theta =(0,\infty )}
und
U
ϑ ϑ -->
{\displaystyle U_{\vartheta }}
die stetige Gleichverteilung auf
[
0
,
ϑ ϑ -->
]
{\displaystyle [0,\vartheta ]}
ist.
Die zu schätzende Funktion ist
g
(
ϑ ϑ -->
)
=
ϑ ϑ -->
{\displaystyle g(\vartheta )=\vartheta }
, ein möglicher Schätzer wäre
T
(
X
)
=
max
(
X
1
,
… … -->
,
X
n
)
{\displaystyle T(X)=\max(X_{1},\dots ,X_{n})}
,
da die größte ausgegebene Zufallszahl intuitiv "nah" an der unbekannten Obergrenze
ϑ ϑ -->
{\displaystyle \vartheta }
liegt. Dann ist
P
ϑ ϑ -->
(
T
≤ ≤ -->
c
)
=
(
c
ϑ ϑ -->
)
n
{\displaystyle P_{\vartheta }(T\leq c)=\left({\frac {c}{\vartheta }}\right)^{n}}
für alle
c
∈ ∈ -->
[
0
,
ϑ ϑ -->
]
{\displaystyle c\in [0,\vartheta ]}
. Daraus folgt
E
ϑ ϑ -->
-->
(
T
)
=
n
n
+
1
ϑ ϑ -->
{\displaystyle \operatorname {E} _{\vartheta }(T)={\frac {n}{n+1}}\vartheta }
,
somit ist die Verzerrung
B
T
(
ϑ ϑ -->
)
=
n
n
+
1
ϑ ϑ -->
− − -->
ϑ ϑ -->
=
− − -->
ϑ ϑ -->
n
+
1
{\displaystyle \mathbb {B} _{T}(\vartheta )={\frac {n}{n+1}}\vartheta -\vartheta =-{\frac {\vartheta }{n+1}}}
.
Die Verzerrung kommt hier zustande, da der Schätzer den wahren Wert stets unterschätzt, es ist
P
ϑ ϑ -->
(
T
<
ϑ ϑ -->
)
=
1
{\displaystyle P_{\vartheta }(T<\vartheta )=1}
.
Eigenschaften
Ist die Verzerrung eines Schätzers für alle
ϑ ϑ -->
∈ ∈ -->
Θ Θ -->
{\displaystyle \vartheta \in \Theta }
gleich Null, also
E
ϑ ϑ -->
-->
(
T
)
=
g
(
ϑ ϑ -->
)
f
u
¨ ¨ -->
r
a
l
l
e
ϑ ϑ -->
∈ ∈ -->
Θ Θ -->
{\displaystyle \operatorname {E} _{\vartheta }(T)=g(\vartheta )\quad \mathrm {f{\ddot {u}}r\;alle\;} \vartheta \in \Theta }
,
so nennt man diesen Schätzer einen erwartungstreuen Schätzer .
Der mittlere quadratische Fehler
F
T
(
ϑ ϑ -->
)
=
E
ϑ ϑ -->
-->
(
(
T
− − -->
g
(
ϑ ϑ -->
)
)
2
)
{\displaystyle \mathbb {F} _{T}(\vartheta )=\operatorname {E} _{\vartheta }\left(\left(T-g(\vartheta )\right)^{2}\right)}
zerfällt aufgrund des Verschiebungssatzes in Varianz und Verzerrung
F
T
(
ϑ ϑ -->
)
=
Var
ϑ ϑ -->
-->
(
T
)
+
(
B
T
(
ϑ ϑ -->
)
)
2
{\displaystyle \mathbb {F} _{T}(\vartheta )=\operatorname {Var} _{\vartheta }(T)+\left(\mathbb {B} _{T}(\vartheta )\right)^{2}}
Somit entspricht der mittlere quadratische Fehler bei erwartungstreuen Schätzern genau der Varianz des Schätzers.
Sowohl die Verzerrung als auch der mittlere quadratische Fehler sind wichtige Qualitätskriterien für Punktschätzer . Folglich versucht man, beide möglichst klein zu halten. Es gibt aber Fälle, in denen es zur Minimierung des mittleren quadratischen Fehlers sinnvoll ist, Verzerrung zuzulassen.
So ist im Binomialmodell
X
=
{
0
,
… … -->
,
n
}
,
A
=
P
(
X
)
,
P
ϑ ϑ -->
=
Bin
n
,
ϑ ϑ -->
{\displaystyle X=\{0,\dots ,n\},{\mathcal {A}}={\mathcal {P}}(X),P_{\vartheta }=\operatorname {Bin} _{n,\vartheta }}
mit
ϑ ϑ -->
∈ ∈ -->
[
0
,
1
]
{\displaystyle \vartheta \in [0,1]}
ein gleichmäßig bester erwartungstreuer Schätzer gegeben durch
T
1
(
x
)
=
x
n
{\displaystyle T_{1}(x)={\frac {x}{n}}}
,
heißt seine Varianz (und damit auch sein mittlerer quadratischer Fehler) ist für alle
ϑ ϑ -->
{\displaystyle \vartheta }
kleiner als die jedes weiteren erwartungstreuen Schätzers. Der Schätzer
T
2
=
x
+
1
n
+
2
{\displaystyle T_{2}={\frac {x+1}{n+2}}}
ist nicht erwartungstreu und folglich verzerrt, besitzt aber für Werte von
ϑ ϑ -->
{\displaystyle \vartheta }
nahe an
0
,
5
{\displaystyle 0{,}5}
einen geringeren mittleren quadratischen Fehler[ 2] .
Es können also nicht immer Verzerrung und mittlerer quadratischer Fehler gleichzeitig minimiert werden, siehe auch Verzerrung-Varianz-Dilemma .
Beispiel, wenn ein verzerrter Schätzer (blau) besser sein kann als ein unverzerrter Schätzer (gelb), da der verzerrte Schätzer eine kleinere Streuung besitzt.
Siehe auch
Weblinks
Literatur
Hans-Otto Georgii: Stochastik . Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7 , doi :10.1515/9783110215274 .
Ludger Rüschendorf: Mathematische Statistik . Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6 , doi :10.1007/978-3-642-41997-3 .
Claudia Czado, Thorsten Schmidt: Mathematische Statistik . Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1 , doi :10.1007/978-3-642-17261-8 .
Einzelnachweise
↑ Georgii: Stochastik. 2009, S. 207.
↑ Georgii: Stochastik. 2009, S. 209.