카이제곱 검정은 범주형 변수 간의 관련성을 분석할 때 가장 널리 사용하는 통계 기법 중 하나입니다. 관찰된 데이터와 기대되는 데이터 간의 차이를 분석하여, 두 변수 간의 독립성 또는 적합성을 검정합니다.
📌 언제 사용하는가?
- 두 개 이상의 범주형 변수가 서로 관련이 있는지 분석할 때
- 관측값이 특정 이론적 분포와 일치하는지 검정할 때
🔍 카이제곱 검정의 종류
| 검정 종류 | 목적 | 예시 |
|---|---|---|
| 적합도 검정 | 한 변수의 분포가 이론적인 분포와 일치하는가 | 주사위 눈금이 동일 확률로 나오는가? |
| 독립성 검정 | 두 변수 간의 관련성 검정 | 성별과 구매 여부가 관련 있는가? |
| 동질성 검정 | 집단 간 분포 비교 | 지역별 제품 만족도 분포가 같은가? |
🧭 카이제곱 독립성 검정 절차
1. 가설 설정
- 귀무가설 (H₀): 두 변수는 서로 독립이다 (관련이 없다)
- 대립가설 (H₁): 두 변수는 독립이 아니다 (관련이 있다)
2. 교차표(분할표) 작성
| 성별 \\ 구매여부 | 구매함 | 구매 안함 | 합계 |
|---|---|---|---|
| 남성 | 30 | 20 | 50 |
| 여성 | 40 | 10 | 50 |
| 합계 | 70 | 30 | 100 |
3. 기대빈도 계산
기대빈도(E)는 다음과 같이 계산됩니다:
기대빈도 = (행 합계 × 열 합계) / 전체 합계
예: 남성-구매함 = (50 × 70) / 100 = 35
4. 검정 통계량 계산
카이제곱 통계량 공식:
χ² = Σ (관측값 - 기대값)² / 기대값
5. 유의확률(p-value) 확인
- 자유도(df): (행의 수 - 1) × (열의 수 - 1)
- 유의수준(보통 0.05)과 비교하여 가설 채택 여부 결정
6. 결론 도출
- p-value < 0.05 → 귀무가설 기각 → 두 변수는 관련 있음
- p-value ≥ 0.05 → 귀무가설 채택 → 두 변수는 독립
⚠️ 주의사항
- 기대빈도가 5 미만인 셀이 전체의 20% 이상이면, 검정 결과의 신뢰도가 낮아짐
- 샘플은 서로 독립적이어야 함
- 빈도가 매우 작을 경우, 피셔의 정확 검정이 더 적절할 수 있음
✅ 요약
카이제곱 검정은 범주형 변수 간의 관련성을 파악하기 위한 강력한 도구입니다. 관측값과 기대값 간의 차이를 기반으로 통계적으로 의미 있는 차이가 있는지를 확인할 수 있습니다.

0 댓글