🌟 다중공선성 완벽 정리
1️⃣ 다중공선성이란 무엇인가?
다중공선성이란 회귀분석에서 독립변수(설명변수)들 간에 강한 선형적 상관관계가 존재하는 상태를 말합니다.
즉, \( X_1, X_2, ..., X_p \) 중 일부가 서로 거의 선형결합 관계에 있을 경우입니다.
예:
\( X_2 \approx a X_1 + b \)
이런 경우 \(X_1\)과 \(X_2\)는 거의 동일한 정보를 제공 → 다중공선성 존재
2️⃣ 다중공선성의 원인
- ✅ 유사한 개념이나 측정을 기반으로 한 독립변수 (예: 몸무게와 BMI)
- ✅ 불필요하게 많은 파생변수 추가 (예: \(X\)와 \(X^2\))
- ✅ 표본 크기가 너무 작음
- ✅ 데이터 스케일링/변환 과정에서 변수 간 관계 강화
- ✅ 특정 변수 조합이 일정한 비율 유지
3️⃣ 다중공선성의 문제점
- 🔹 회귀계수의 표준 오차 증가 → 추정 불확실성 증가 → p-value 증가
- 🔹 회귀계수 불안정 → 표본 약간만 바뀌어도 계수 크게 변동
- 🔹 비논리적 부호 → 예: X가 증가하면 Y도 늘어야 하는데, 음의 계수
- 🔹 모델 해석의 신뢰성 저하
💡 예측력 자체는 유지될 수 있으나, 회귀계수 해석이 신뢰할 수 없게 됨
4️⃣ 다중공선성의 진단 방법
- (1) 상관계수 행렬 확인: 독립변수 간 상관계수 ≥ 0.8 → 의심
- (2) VIF (Variance Inflation Factor):
\( \text{VIF}_j = \frac{1}{1 - R_j^2} \)
- \( R_j^2 \): 변수 \(X_j\)를 나머지 변수로 회귀시킨 결정계수
VIF 해석
- VIF = 1 → 다중공선성 없음
- VIF > 5 → 의심
- VIF > 10 → 심각
- (3) 조건수 (Condition Number): 공분산 행렬의 고유값 비율
- 조건수 > 30~100 → 다중공선성 가능성 높음
5️⃣ 다중공선성 해결 방법
- ✅ 불필요한 변수 제거
- ✅ 변수 결합: 상관이 높은 변수들을 합쳐 하나의 지표 생성
- ✅ 주성분 회귀 (PCR): PCA로 성분 추출 후 회귀
- ✅ 릿지 회귀: 규제항을 추가해 계수 안정화
- ✅ 표본 수 증가: 더 많은 데이터 수집
6️⃣ 예시
| 변수 | 설명 |
|---|---|
| X1 | 엔진 배기량 (cc) |
| X2 | 마력 (hp) |
| X3 | 무게 (kg) |
👉 X1과 X2는 엔진 크기와 출력으로, 매우 높은 상관관계를 가질 수 있음
👉 두 변수를 동시에 사용하면 다중공선성 → 회귀계수 해석이 모호해짐
🌟 정리
- 👉 다중공선성: 변수들 간 강한 선형관계 → 개별 효과 해석 어려움
- 👉 모델 예측력보다 해석의 신뢰성에 더 큰 영향
- 👉 진단: VIF, 조건수
- 👉 해결: 변수 제거, 결합, 릿지 회귀, 주성분 회귀 등

0 댓글