✅ 상관관계 분석만으로 충분하지 않은 이유
상관관계 분석은 변수들 간의 쌍(pair) 관계를 보여줍니다.
예를 들어, 광고비와 인건비 사이의 상관, 광고비와 점포 수 사이의 상관 등 개별적으로만 살펴볼 수 있습니다.
하지만 실제 회귀분석에서는 변수 여러 개가 동시에 함께 작용할 수 있습니다.
즉, 상관계수만으로는 드러나지 않는 숨겨진 관계(다중공선성)가 존재할 수 있으므로, 반드시 추가 점검이 필요합니다.
✅ 다중공선성이란?
다중공선성(Multicollinearity)은 두 개 이상의 독립변수가 서로 강한 선형관계를 가질 때 발생하는 문제입니다.
즉, 서로 매우 비슷한 정보를 담고 있는 변수들이 모델에 함께 포함되어 있는 상황입니다.
✅ 다중공선성을 반드시 확인해야 하는 이유
| 이유 | 설명 |
|---|---|
| 1. 회귀계수가 불안정함 | 독립변수들이 서로 겹치는 정보를 갖고 있으면, 계수가 과장되거나 부호가 바뀌는 등 이상한 결과가 나올 수 있습니다. |
| 2. p-value가 왜곡됨 | 중요한 변수임에도 불구하고 p-value가 높게 나와 유의하지 않은 것처럼 보일 수 있습니다. |
| 3. 해석이 어려움 | 각 변수의 독립적인 영향력을 분리해 해석하는 것이 불가능해질 수 있습니다. |
| 4. 예측은 가능해도 설명력은 떨어짐 | 예측 모델로는 작동하지만, 왜 그런 결과가 나왔는지 설명하기 어려워집니다. |
✅ 상관관계 분석 → 다중공선성 확인은 필수 경로
상관관계 분석은 첫 단계일 뿐, 변수 간 단순한 관계만 보여줍니다.
반면, 다중공선성은 여러 변수들이 함께 작용할 때 생기는 문제이므로, VIF(분산팽창지수)와 같은 정량적 지표를 통해 반드시 확인해야 합니다.
💡 결론:
다중회귀분석을 하기 전, 상관관계를 분석했다면
다음 단계는 반드시 다중공선성을 확인하는 것입니다.
그래야만 모델의 해석이 정확하고, 결과를 신뢰할 수 있습니다.
다중회귀분석을 하기 전, 상관관계를 분석했다면
다음 단계는 반드시 다중공선성을 확인하는 것입니다.
그래야만 모델의 해석이 정확하고, 결과를 신뢰할 수 있습니다.

0 댓글