📌 상관관계의 개념
상관관계는 두 변수 간의 선형적 관계의 방향과 강도를 나타냅니다.
상관계수(Correlation Coefficient)는 이 관계를 -1 ~ +1 사이의 값으로 수치화합니다.
- +1: 완벽한 양의 상관관계 (둘 다 증가)
- 0: 선형적 관계 없음
- -1: 완벽한 음의 상관관계 (한쪽 증가, 다른 쪽 감소)
📌 상관계수의 종류
| 상관계수 종류 | 특징 | 사용 조건 |
|---|---|---|
| 피어슨 (Pearson's r) | 선형 관계 측정 | 연속형, 정규성, 등분산성 |
| 스피어만 (Spearman’s ρ) | 순위(서열) 관계 측정 | 순위형, 이상치에 강건, 비선형 단조 |
| 켄달의 타우 (Kendall’s τ) | 순위 간 일관성 기반 | 표본 수 작을 때 적합 |
📌 피어슨 상관계수 계산 방법
두 변수 \(X\), \(Y\)의 표본 상관계수 \(r\)은 아래와 같이 계산됩니다:
\( r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2} \sqrt{\sum (Y_i - \bar{Y})^2}} \)
- \(X_i, Y_i\): 각 데이터 값
- \(\bar{X}, \bar{Y}\): 각각의 평균값
📌 상관계수 해석
| r 값 범위 | 관계의 강도 | 해석 예시 |
|---|---|---|
| 0.0 ~ ±0.1 | 매우 약한 상관 | 거의 없음 |
| ±0.1 ~ ±0.3 | 약한 상관 | 약한 양/음의 관계 |
| ±0.3 ~ ±0.5 | 보통 상관 | 실질적 관계 가능 |
| ±0.5 ~ ±0.7 | 강한 상관 | 명확한 양/음의 관계 |
| ±0.7 ~ ±1.0 | 매우 강한 상관 | 거의 완벽한 선형 관계 |
⚠️ 주의:
상관계수는 인과관계(causation)를 의미하지 않습니다.
단지 두 변수 간 동반 변화의 정도를 설명합니다.
📌 상관관계 분석 시 주의사항
- ✅ 피어슨 상관계수는 선형 관계만 측정
- ✅ 이상치에 민감 (특히 Pearson)
- ✅ 표본 크기가 너무 작으면 신뢰도 떨어짐
- ✅ 공변량 영향 고려 → 허위 상관 가능성 존재

0 댓글