카이제곱검정 이란?


카이제곱 검정(Chi-Square Test) 자세히 알아보기

카이제곱 검정은 범주형 변수 간의 관련성을 분석할 때 가장 널리 사용하는 통계 기법 중 하나입니다. 관찰된 데이터와 기대되는 데이터 간의 차이를 분석하여, 두 변수 간의 독립성 또는 적합성을 검정합니다.



📌 언제 사용하는가?

  • 두 개 이상의 범주형 변수가 서로 관련이 있는지 분석할 때
  • 관측값이 특정 이론적 분포와 일치하는지 검정할 때


🔍 카이제곱 검정의 종류

검정 종류 목적 예시
적합도 검정 한 변수의 분포가 이론적인 분포와 일치하는가 주사위 눈금이 동일 확률로 나오는가?
독립성 검정 두 변수 간의 관련성 검정 성별과 구매 여부가 관련 있는가?
동질성 검정 집단 간 분포 비교 지역별 제품 만족도 분포가 같은가?


🧭 카이제곱 독립성 검정 절차


1. 가설 설정

  • 귀무가설 (H₀): 두 변수는 서로 독립이다 (관련이 없다)
  • 대립가설 (H₁): 두 변수는 독립이 아니다 (관련이 있다)


2. 교차표(분할표) 작성

성별 \\ 구매여부 구매함 구매 안함 합계
남성 30 20 50
여성 40 10 50
합계 70 30 100


3. 기대빈도 계산

기대빈도(E)는 다음과 같이 계산됩니다:

기대빈도 = (행 합계 × 열 합계) / 전체 합계

예: 남성-구매함 = (50 × 70) / 100 = 35



4. 검정 통계량 계산

카이제곱 통계량 공식:

χ² = Σ (관측값 - 기대값)² / 기대값



5. 유의확률(p-value) 확인

  • 자유도(df): (행의 수 - 1) × (열의 수 - 1)
  • 유의수준(보통 0.05)과 비교하여 가설 채택 여부 결정


6. 결론 도출

  • p-value < 0.05 → 귀무가설 기각 → 두 변수는 관련 있음
  • p-value ≥ 0.05 → 귀무가설 채택 → 두 변수는 독립


⚠️ 주의사항

  • 기대빈도가 5 미만인 셀이 전체의 20% 이상이면, 검정 결과의 신뢰도가 낮아짐
  • 샘플은 서로 독립적이어야 함
  • 빈도가 매우 작을 경우, 피셔의 정확 검정이 더 적절할 수 있음


✅ 요약

카이제곱 검정은 범주형 변수 간의 관련성을 파악하기 위한 강력한 도구입니다. 관측값과 기대값 간의 차이를 기반으로 통계적으로 의미 있는 차이가 있는지를 확인할 수 있습니다.

0 댓글