다중회귀분석이란?

 




다중회귀분석 완전 정리

1️⃣ 다중회귀분석이란?

다중회귀분석은 하나의 종속변수(Y)를 여러 개의 독립변수(X₁, X₂, ..., Xₚ)를 사용해 설명하는 분석 방법입니다. 단순회귀는 한 변수만 고려하지만, 현실 세계에서는 여러 요인이 결과에 영향을 주므로 다중회귀가 더 일반적입니다.

📌 수식 예시:
Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + ε

예: 집값(Y) = β₀ + β₁×면적(X₁) + β₂×방 개수(X₂) + β₃×건물 나이(X₃) + ε

📌 계수 해석:
β₁: 면적이 집값에 미치는 영향
β₂: 방 개수가 집값에 미치는 영향
β₃: 건물 나이가 집값에 미치는 영향



2️⃣ 다중회귀분석의 목적

  • ✅ 각 변수의 개별적 영향력 파악 (통제된 상태에서의 효과)
  • ✅ 정량적 예측: 미래 값을 예측하는 수학적 모델 구축
  • ✅ 데이터 구조 이해: 변수 간 관계 및 상호작용 파악
  • ✅ 의사결정 근거 제공: 마케팅, 부동산, 정책 등에서 활용


3️⃣ 회귀계수의 해석 (예제)

모델:
집값 = 50 + 0.3×면적 + 10×방 개수 − 0.5×건물 나이

  • 절편 50: 모든 독립변수가 0일 때의 이론적 집값
  • 면적 계수 0.3: 면적 1m² 증가 → 집값 0.3백만 원 상승
  • 방 개수 계수 10: 방 하나 증가 → 집값 10백만 원 상승
  • 건물 나이 계수 -0.5: 건물 나이 1년 증가 → 집값 0.5백만 원 하락

⚠️ 해석은 다른 변수가 고정되어 있다는 조건 하에서만 유효



4️⃣ 다중회귀분석의 주요 통계 지표

지표설명기준 또는 해석
R² (결정계수)모델이 종속변수의 변동을 얼마나 설명하는가0~1 사이, 높을수록 좋음
Adjusted R²변수 수 증가에 따른 보정과적합 방지
p-value회귀계수의 유의성 검정p < 0.05 → 유의함
VIF독립변수 간 중복 설명력VIF > 10 → 다중공선성 의심
Durbin-Watson오차의 자기상관 검정1.5 ~ 2.5 적절


5️⃣ 다중회귀분석의 절차


🧹 1. 데이터 전처리

  • 결측치 처리 (삭제 또는 대체)
  • 이상치 탐지 및 제거
  • 변수 변환 (로그, 제곱근 등)
  • 독립변수 간 상관관계 확인

🔧 2. 모델 적합

최소제곱법(OLS)을 사용하여 회귀계수 추정
Python(statsmodels), R(lm 함수) 등 활용


📋 3. 가정 점검

가정확인 방법설명
선형성잔차 vs 예측값 플롯선형 형태여야 함
등분산성잔차 플롯, Breusch-Pagan test잔차 분산이 일정
독립성Durbin-Watson오차 간 독립
정규성Q-Q plot, Shapiro-Wilk잔차가 정규분포
다중공선성VIF, 상관계수 행렬변수 간 과도한 상관X


🔁 4. 모델 개선

  • 불필요한 변수 제거 (stepwise)
  • 상호작용항, 다항항 추가
  • 정규화 기법(Ridge, Lasso) 적용
  • 변수 스케일링 (표준화 등)


6️⃣ 다중공선성과 그 해결


💥 문제점

  • 회귀계수의 불안정
  • p-value 증가 → 유의성 저하
  • 모델 예측력 저하 가능

🔍 진단 방법

  • VIF 확인 (10 초과 시 의심)
  • 상관계수 행렬에서 0.8 이상 확인

🛠 해결 방법

  • 상관이 높은 변수 제거
  • 변수 결합 또는 변환
  • 주성분 회귀(PCR), Ridge, Lasso 활용
  • 차원 축소(PCA) 적용


🎯 마무리 팁
✅ 높은 R²만으로 모델의 우수성을 판단하지 말 것
✅ 예측력은 검증 데이터로 확인
✅ 잔차 분석은 필수
✅ 실제 해석 가능한 변수만 유지 → 과적합 방지

0 댓글