1️⃣ 다중회귀분석이란?
다중회귀분석은 하나의 종속변수(Y)를 여러 개의 독립변수(X₁, X₂, ..., Xₚ)를 사용해 설명하는 분석 방법입니다. 단순회귀는 한 변수만 고려하지만, 현실 세계에서는 여러 요인이 결과에 영향을 주므로 다중회귀가 더 일반적입니다.
📌 수식 예시:
Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + ε
예: 집값(Y) = β₀ + β₁×면적(X₁) + β₂×방 개수(X₂) + β₃×건물 나이(X₃) + ε
📌 계수 해석:
β₁: 면적이 집값에 미치는 영향
β₂: 방 개수가 집값에 미치는 영향
β₃: 건물 나이가 집값에 미치는 영향
2️⃣ 다중회귀분석의 목적
- ✅ 각 변수의 개별적 영향력 파악 (통제된 상태에서의 효과)
- ✅ 정량적 예측: 미래 값을 예측하는 수학적 모델 구축
- ✅ 데이터 구조 이해: 변수 간 관계 및 상호작용 파악
- ✅ 의사결정 근거 제공: 마케팅, 부동산, 정책 등에서 활용
3️⃣ 회귀계수의 해석 (예제)
모델:
집값 = 50 + 0.3×면적 + 10×방 개수 − 0.5×건물 나이
- 절편 50: 모든 독립변수가 0일 때의 이론적 집값
- 면적 계수 0.3: 면적 1m² 증가 → 집값 0.3백만 원 상승
- 방 개수 계수 10: 방 하나 증가 → 집값 10백만 원 상승
- 건물 나이 계수 -0.5: 건물 나이 1년 증가 → 집값 0.5백만 원 하락
⚠️ 해석은 다른 변수가 고정되어 있다는 조건 하에서만 유효
4️⃣ 다중회귀분석의 주요 통계 지표
| 지표 | 설명 | 기준 또는 해석 |
|---|---|---|
| R² (결정계수) | 모델이 종속변수의 변동을 얼마나 설명하는가 | 0~1 사이, 높을수록 좋음 |
| Adjusted R² | 변수 수 증가에 따른 보정 | 과적합 방지 |
| p-value | 회귀계수의 유의성 검정 | p < 0.05 → 유의함 |
| VIF | 독립변수 간 중복 설명력 | VIF > 10 → 다중공선성 의심 |
| Durbin-Watson | 오차의 자기상관 검정 | 1.5 ~ 2.5 적절 |
5️⃣ 다중회귀분석의 절차
🧹 1. 데이터 전처리
- 결측치 처리 (삭제 또는 대체)
- 이상치 탐지 및 제거
- 변수 변환 (로그, 제곱근 등)
- 독립변수 간 상관관계 확인
🔧 2. 모델 적합
최소제곱법(OLS)을 사용하여 회귀계수 추정
Python(statsmodels), R(lm 함수) 등 활용
📋 3. 가정 점검
| 가정 | 확인 방법 | 설명 |
|---|---|---|
| 선형성 | 잔차 vs 예측값 플롯 | 선형 형태여야 함 |
| 등분산성 | 잔차 플롯, Breusch-Pagan test | 잔차 분산이 일정 |
| 독립성 | Durbin-Watson | 오차 간 독립 |
| 정규성 | Q-Q plot, Shapiro-Wilk | 잔차가 정규분포 |
| 다중공선성 | VIF, 상관계수 행렬 | 변수 간 과도한 상관X |
🔁 4. 모델 개선
- 불필요한 변수 제거 (stepwise)
- 상호작용항, 다항항 추가
- 정규화 기법(Ridge, Lasso) 적용
- 변수 스케일링 (표준화 등)
6️⃣ 다중공선성과 그 해결
💥 문제점
- 회귀계수의 불안정
- p-value 증가 → 유의성 저하
- 모델 예측력 저하 가능
🔍 진단 방법
- VIF 확인 (10 초과 시 의심)
- 상관계수 행렬에서 0.8 이상 확인
🛠 해결 방법
- 상관이 높은 변수 제거
- 변수 결합 또는 변환
- 주성분 회귀(PCR), Ridge, Lasso 활용
- 차원 축소(PCA) 적용
🎯 마무리 팁
✅ 높은 R²만으로 모델의 우수성을 판단하지 말 것
✅ 예측력은 검증 데이터로 확인
✅ 잔차 분석은 필수
✅ 실제 해석 가능한 변수만 유지 → 과적합 방지
✅ 높은 R²만으로 모델의 우수성을 판단하지 말 것
✅ 예측력은 검증 데이터로 확인
✅ 잔차 분석은 필수
✅ 실제 해석 가능한 변수만 유지 → 과적합 방지

0 댓글