🌟 다중회귀분석에서의 공분산 완전 정리
1️⃣ 공분산의 기본 개념
공분산은 두 변수 간의 선형 관계의 방향과 정도를 나타내는 통계량입니다.
두 변수 \(X\)와 \(Y\)의 공분산은 다음과 같이 정의됩니다:
\( \operatorname{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] \)
- 양수: \(X\)가 클 때 \(Y\)도 큰 경향 → 양의 선형 관계
- 음수: \(X\)가 클 때 \(Y\)는 작아지는 경향 → 음의 선형 관계
- 0 근처: 선형 관계 거의 없음
2️⃣ 다중회귀에서 공분산의 의미
다중회귀분석에서는 여러 독립변수 \(X_1, X_2, ..., X_p\)가 종속변수 \(Y\)를 설명합니다.
- 독립변수 간의 공분산: 독립변수들끼리 선형적으로 얼마나 관련되어 있는지
- 독립변수 vs 종속변수 간 공분산: 그 독립변수가 종속변수를 얼마나 설명할 수 있는지
공분산은 다음과 같은 역할을 합니다:
- ✅ 변수들 간 구조 이해
- ✅ 다중공선성(Multicollinearity) 판단 지표
3️⃣ 회귀계수 추정과 공분산
다중회귀에서 회귀계수 \(\hat{\beta}\)는 다음과 같이 계산됩니다:
\( \hat{\beta} = (X'X)^{-1} X'Y \)
여기서 \(X'X\)는 독립변수들의 공분산 구조와 유사한 행렬입니다.
중요 포인트:
- \(X'X\)가 특이행렬(singular)이거나 행렬식이 0에 가까우면 → 역행렬 계산이 어려움
- → 회귀계수 추정이 불안정해짐
4️⃣ 회귀계수 추정치의 공분산
추정된 회귀계수의 공분산행렬:
\( \operatorname{Cov}(\hat{\beta}) = \sigma^2 (X'X)^{-1} \)
- \(\sigma^2\): 잔차의 분산
- \((X'X)^{-1}\): 독립변수 구조의 역행렬
즉:
- 공분산이 큰 독립변수들이 많을수록 → \((X'X)^{-1}\) 값 증가
- → 회귀계수의 분산 커짐 → 신뢰구간 넓어짐 → 계수 추정이 불안정해짐
5️⃣ 공분산과 다중공선성
공분산이 큰 변수쌍이 많으면 다중공선성(Multicollinearity)이 발생할 수 있습니다.
- → 회귀계수 추정 불안정
- → 해석 어려움
- → 예측력은 유지될 수 있으나 계수의 유의성 낮아짐
해결법:
- 📌 공분산 행렬의 고유값 분석 (Condition Index 등)
- 📌 VIF (분산팽창계수) 계산
6️⃣ 실전적 요약
다중회귀분석에서 공분산은 다음과 같은 역할을 합니다:
- 🔍 독립변수들 간 관계 파악
- 🎯 회귀계수 추정치의 정확성 평가
- 📉 모델의 해석 가능성과 안정성 판단
따라서 공분산 행렬은 단순한 수치가 아니라, 모델 품질의 핵심을 좌우하는 구조입니다.

0 댓글