[다중회귀분석] 공분산이란?

 



다중회귀와 공분산의 이해

🌟 다중회귀분석에서의 공분산 완전 정리


1️⃣ 공분산의 기본 개념

공분산은 두 변수 간의 선형 관계의 방향과 정도를 나타내는 통계량입니다.

두 변수 \(X\)와 \(Y\)의 공분산은 다음과 같이 정의됩니다:

\( \operatorname{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] \)

  • 양수: \(X\)가 클 때 \(Y\)도 큰 경향 → 양의 선형 관계
  • 음수: \(X\)가 클 때 \(Y\)는 작아지는 경향 → 음의 선형 관계
  • 0 근처: 선형 관계 거의 없음


2️⃣ 다중회귀에서 공분산의 의미

다중회귀분석에서는 여러 독립변수 \(X_1, X_2, ..., X_p\)가 종속변수 \(Y\)를 설명합니다.

  • 독립변수 간의 공분산: 독립변수들끼리 선형적으로 얼마나 관련되어 있는지
  • 독립변수 vs 종속변수 간 공분산: 그 독립변수가 종속변수를 얼마나 설명할 수 있는지

공분산은 다음과 같은 역할을 합니다:

  • ✅ 변수들 간 구조 이해
  • ✅ 다중공선성(Multicollinearity) 판단 지표


3️⃣ 회귀계수 추정과 공분산

다중회귀에서 회귀계수 \(\hat{\beta}\)는 다음과 같이 계산됩니다:

\( \hat{\beta} = (X'X)^{-1} X'Y \)

여기서 \(X'X\)는 독립변수들의 공분산 구조와 유사한 행렬입니다.

중요 포인트:

  • \(X'X\)가 특이행렬(singular)이거나 행렬식이 0에 가까우면 → 역행렬 계산이 어려움
  • → 회귀계수 추정이 불안정해짐


4️⃣ 회귀계수 추정치의 공분산

추정된 회귀계수의 공분산행렬:

\( \operatorname{Cov}(\hat{\beta}) = \sigma^2 (X'X)^{-1} \)

  • \(\sigma^2\): 잔차의 분산
  • \((X'X)^{-1}\): 독립변수 구조의 역행렬

즉:

  • 공분산이 큰 독립변수들이 많을수록 → \((X'X)^{-1}\) 값 증가
  • → 회귀계수의 분산 커짐 → 신뢰구간 넓어짐 → 계수 추정이 불안정해짐


5️⃣ 공분산과 다중공선성

공분산이 큰 변수쌍이 많으면 다중공선성(Multicollinearity)이 발생할 수 있습니다.

  • → 회귀계수 추정 불안정
  • → 해석 어려움
  • → 예측력은 유지될 수 있으나 계수의 유의성 낮아짐

해결법:

  • 📌 공분산 행렬의 고유값 분석 (Condition Index 등)
  • 📌 VIF (분산팽창계수) 계산


6️⃣ 실전적 요약

다중회귀분석에서 공분산은 다음과 같은 역할을 합니다:

  • 🔍 독립변수들 간 관계 파악
  • 🎯 회귀계수 추정치의 정확성 평가
  • 📉 모델의 해석 가능성과 안정성 판단

따라서 공분산 행렬은 단순한 수치가 아니라, 모델 품질의 핵심을 좌우하는 구조입니다.


0 댓글