독립변수가 범주형(categorical)이고, 종속변수가 0과 1로 이루어진 이진형(binary)
✅ 1. 로지스틱 회귀분석 (Logistic Regression)
가장 대표적이고 널리 사용되는 방법입니다.
- 이진 종속변수의 확률을 예측
- 범주형 독립변수는
더미 변수로 변환
예: 혈액형(A, B, AB, O) → 질병 유무(0, 1) 예측
모델 수식:
log(p / (1 - p)) = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ
✅ 2. 교차분석 (카이제곱 검정, Chi-Square Test)
- 두 범주형 변수 간 연관성을 검정
- 예: 혈액형과 질병 유무 간 관련성
- 예측보다는 관계 분석에 적합
✅ 3. Fisher의 정확검정 (Fisher's Exact Test)
- 교차표의 셀 빈도가 적을 때 사용 (특히 2x2 표)
- 소표본 데이터 분석에 유리
✅ 4. 두 비율의 차이 검정 (Two-proportion z-test)
- 두 그룹 간 비율 차이 분석
- 예: 남성과 여성의 질병 유무 비율 차이
📌 분석 방법 선택 요약
| 상황 | 추천 분석 방법 |
|---|---|
| 독립변수 하나, 종속변수 이진 | 로지스틱 회귀, 카이제곱 검정 |
| 독립변수가 2수준 (예: 성별) | 이항검정 또는 Fisher검정 |
| 독립변수 여러 개 (범주형 포함) | 로지스틱 회귀 |
| 예측이 목적 | 로지스틱 회귀 |
| 단순 연관성 파악 | 카이제곱 검정 |
💡 팁:
- 범주형 변수는 반드시 더미 변수 처리 (One-hot encoding)
- 소표본이면 Fisher의 정확검정 사용
- 로지스틱 회귀 해석 시 오즈비(odds ratio)를 사용하면 직관적
- 범주형 변수는 반드시 더미 변수 처리 (One-hot encoding)
- 소표본이면 Fisher의 정확검정 사용
- 로지스틱 회귀 해석 시 오즈비(odds ratio)를 사용하면 직관적

0 댓글