두 개의 확률 변수 X 와 Y 의 상관성과 공분산의 부호.
공분산 (共分散, 영어 : covariance )은 2개의 확률변수 의 선형 관계를 나타내는 값이다.[ 1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[ 2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석 을 통해 정도를 파악하기에는 부적절하다. 상관분석 에서는 상관관계의 정도를 나타내는 단위로 모상관계수 로는 그리스 문자 ρ 를, 표본상관계수로는 알파벳 s 를 사용한다.
정의와 공식
공분산의 정의는 다음과 같다.
정의 —
Cov
-->
(
X
,
Y
)
≡ ≡ -->
E
-->
[
(
X
− − -->
E
-->
[
X
]
)
(
Y
− − -->
E
-->
[
Y
]
)
]
{\displaystyle \operatorname {Cov} (X,Y)\equiv \operatorname {E} [(X-\operatorname {E} [X])\,(Y-\operatorname {E} [Y])]}
여기서 실수 값을 지니는 2개의 확률변수 X 와 Y 에 대해서 공분산의 기댓값
E
(
X
)
=
μ μ -->
,
E
(
Y
)
=
ν ν -->
{\displaystyle E(X)=\mu ,\quad E(Y)=\nu }
을 사용하고, 기댓값 연산자 E를 정리하면 아래와 같이 나타낼 수 있다.
Cov
-->
(
X
,
Y
)
=
E
-->
(
X
⋅ ⋅ -->
Y
)
− − -->
μ μ -->
ν ν -->
{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} (X\cdot Y)-\mu \nu \,}
만약 X 와 Y 가 독립 이라면 공분산은 0이 될 것이고 이 경우 아래와 같이 나타낼 수 있다.
E
(
X
⋅ ⋅ -->
Y
)
=
E
(
X
)
⋅ ⋅ -->
E
(
Y
)
=
μ μ -->
ν ν -->
{\displaystyle E(X\cdot Y)=E(X)\cdot E(Y)=\mu \nu }
2번째 식을 3번째식에 대입하면 아래과 같은 결과를 얻을 수 있다.
Cov
-->
(
X
,
Y
)
=
μ μ -->
ν ν -->
− − -->
μ μ -->
ν ν -->
=
0
{\displaystyle \operatorname {Cov} (X,Y)=\mu \nu -\mu \nu =0}
일반적으로 역은 성립하지 않는다. 즉 X 와 Y 가 독립이 아니라하더라도 공분산의 값은 0이 될 수 있다.
Cov(X , Y )의 단위 는 X 와 Y 의 곱이다. 상관관계 는 공분산값을 필요로하며, 선형독립 의 무차원수 로 볼 수 있다.
공분산이 0인 확률변수를 비상관 확률변수 라고 한다.
성질
만약 X , Y 가 실수값인 확률변수이고 a , b 상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.
Cov
-->
(
X
,
X
)
=
Var
-->
(
X
)
{\displaystyle \operatorname {Cov} (X,X)=\operatorname {Var} (X)\,}
Cov
-->
(
X
,
Y
)
=
Cov
-->
(
Y
,
X
)
{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {Cov} (Y,X)\,}
Cov
-->
(
a
X
,
b
Y
)
=
a
b
Cov
-->
(
X
,
Y
)
{\displaystyle \operatorname {Cov} (aX,bY)=ab\,\operatorname {Cov} (X,Y)\,}
확률변수인 X 1 , ..., X n 과 Y 1 , ..., Y m 에 대해서 아래와 같은 법칙이 성립한다.
Cov
-->
(
∑ ∑ -->
i
=
1
n
X
i
,
∑ ∑ -->
j
=
1
m
Y
j
)
=
∑ ∑ -->
i
=
1
n
∑ ∑ -->
j
=
1
m
Cov
-->
(
X
i
,
Y
j
)
{\displaystyle \operatorname {Cov} \left(\sum _{i=1}^{n}{X_{i}},\sum _{j=1}^{m}{Y_{j}}\right)=\sum _{i=1}^{n}{\sum _{j=1}^{m}{\operatorname {Cov} \left(X_{i},Y_{j}\right)}}}
확률변수인 X 1 , ..., X n 에 대해서 아래와 같은 법칙이 성립한다.
Var
-->
(
∑ ∑ -->
i
=
1
n
X
i
)
=
∑ ∑ -->
i
=
1
n
Var
-->
(
X
i
)
+
2
∑ ∑ -->
i
,
j
:
i
<
j
Cov
-->
(
X
i
,
X
j
)
{\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {Var} (X_{i})+2\sum _{i,j\,:\,i<j}\operatorname {Cov} (X_{i},X_{j})}
공분산의 많은 성질은 내적 이 가지는 성질과 유사하다.:
(1) 이중선형연산 : 상수 a 와 b 그리고 확률변수 X , Y , U , Cov(aX + bY , U ) = a Cov(X , U ) + b Cov(Y , U )
(2) 대칭성: Cov(X , Y ) = Cov(Y , X )
(3) 양수값 : Var(X ) = Cov(X , X ) ≥ 0이고 Cov(X , X ) = 0 이란 것은 X 가 상수확률변수(K )라는 뜻이다.
공분산은 확률변수들의 벡터 공간 상에서의 내적을 의미한다. 벡터에서 적용되는 벡터합 X + Y 및 aX 와 같은 스칼라 곱의 성질도 지닌다.
공분산행렬
열벡터값을 가지는 확률변수X 와 Y 가 각각 μ 와 ν라는 기댓값을 가질 때 공분산m ×n 행렬 은 아래와 같다.
Cov
-->
(
X
,
Y
)
=
E
-->
(
(
X
− − -->
μ μ -->
)
(
Y
− − -->
ν ν -->
)
⊤ ⊤ -->
)
{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu )^{\top })}
벡터확률변수를 가지는 Cov(X , Y ) 와 Cov(Y , X )는 각각의 전치행렬 이다.
공분산은 때때로 2개의 확률변수간의 선형의존 성을 나타내는 척도로도 사용된다. 이것은 선형대수 에서 의미하는 선형의존 성을 말하는 것은 아니다. 공분산을 정규화시키면 상관관계 를 보여주는 상관행렬 (Correlation_matrix)을 얻을 수 있다. 이로부터 Pearson Coefficient값을 얻을 수 있고 두개의 확률변수의 관계를 최적으로 설명가능한 선형함수를 표현가능하게 해준다. 이러한 점에서 공분산은 독립성의 선형척도로 볼 수 있다.
표본 공분산
피어슨 상관계수 에 사용되는 표본 공분산 (sample covariance)은 다음과 같다.
C
o
v
(
X
,
Y
)
=
∑ ∑ -->
i
n
(
X
i
− − -->
X
¯ ¯ -->
)
(
Y
i
− − -->
Y
¯ ¯ -->
)
n
− − -->
1
{\displaystyle Cov(X,Y)={{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)\left(Y_{i}-{\overline {Y}}\right)} \over {n-1}}}
각주
같이 보기