[다중회귀분석] 다중회귀분석 전 상관관계분석을 하는 이유


다중회귀분석에서 상관관계를 확인하는 이유

✅ 1. 회귀모형의 전제 이해하기

다중회귀분석은 하나의 종속변수(Y)를 여러 개의 독립변수(X1, X2, ..., Xn)로 설명하는 통계기법입니다. 이 분석이 잘 작동하려면, 각 독립변수는 서로 독립적인 정보여야 합니다.



❗ 독립변수들끼리 상관관계가 클 경우?

예를 들어, 광고비, 마케팅비, SNS홍보비가 서로 비슷한 경향을 보인다면 이들은 서로 강하게 상관되어 있을 수 있습니다. 이 경우, 각 변수의 독립적인 영향을 정확히 파악하기 어려워집니다.



✅ 2. 다중공선성이란?

다중공선성(Multicollinearity)은 둘 이상의 독립변수가 서로 강하게 상관되어 있을 때 발생합니다.


🔴 다중공선성이 일으키는 문제점

항목 설명
🎯 해석이 어려움 어떤 변수가 실제로 영향을 주는지 알기 어려움
📉 계수의 신뢰도 하락 회귀계수가 불안정하고 민감해짐
❌ 잘못된 판단 유도 p-value가 높게 나와 유의하지 않다고 착각할 수 있음
🌀 과적합 위험 일반화가 어려워져 예측 성능이 떨어짐


✅ 3. 그래서 상관관계를 왜 확인해야 하나요?

  • 독립변수 간의 강한 상관은 다중공선성 문제를 일으킴
  • 회귀계수 해석과 모델 신뢰도가 떨어짐
  • 이 문제를 피하기 위해 상관계수 분석이 선행되어야 함


✅ 4. 어떻게 확인하나요?

▶ 상관계수(Correlation Coefficient)

-1부터 +1까지의 값을 가지며, 0.8 이상이면 매우 강한 상관관계로 판단합니다.



✅ 5. 상관관계에 따른 조치

상황 조치
변수 간 상관관계가 낮음 문제 없음, 그대로 분석 가능
일부 변수 간 상관이 0.8 이상 한 변수를 제거하거나 합쳐 사용
모든 변수가 강한 상관을 보임 변수 재설정, 또는 주성분분석(PCA) 고려


💡 결론:

다중회귀분석에서 독립변수들 간 상관관계를 확인하는 이유는

다중공선성 문제를 사전에 파악하고 회귀모형의 신뢰성과 해석 가능성을 확보하기 위함입니다.

0 댓글