로지스틱 회귀분석은 종속변수가 범주형일 때 사용하는 통계적 기법입니다. 주로 이진 분류 문제에 사용되며, 예측 결과를 확률로 해석할 수 있다는 장점이 있습니다.
1. 왜 로지스틱 회귀를 사용하는가?
선형 회귀는 예측값이 0보다 작거나 1보다 클 수 있어 확률로 해석하기 어렵습니다. 로지스틱 회귀는 예측값을 0과 1 사이로 제한하기 위해 시그모이드 함수를 사용합니다.
2. 시그모이드 함수
로지스틱 회귀의 가설 함수는 다음과 같은 시그모이드 형태입니다:
h(x) = 1 / (1 + e^(-θᵀx))
모든 입력값을 0과 1 사이의 확률로 변환합니다.
3. 비용 함수 (Cost Function)
로지스틱 회귀는 로그 손실(Log Loss)을 사용합니다:
J(θ) = -1/m ∑ [ y·log(h(x)) + (1 - y)·log(1 - h(x)) ]
예측값이 실제값과 다를수록 손실이 크게 계산됩니다.
4. 학습 방법: 경사 하강법
로지스틱 회귀는 비용 함수를 최소화하기 위해 경사 하강법(Gradient Descent)을 사용하여 파라미터(θ)를 반복적으로 업데이트합니다.
5. 예측 방법
예측 확률이 0.5 이상이면 1, 아니면 0으로 분류합니다:
예측 = 1 if h(x) ≥ 0.5 else 0
6. 다항 로지스틱 회귀 (Multinomial)
종속변수가 3개 이상의 범주를 가질 경우 소프트맥스 회귀(Softmax Regression)로 확장할 수 있습니다.
7. 장점과 단점
- 장점: 해석 용이, 계산 효율성 높음, 확률 기반 예측
- 단점: 비선형 분류에 약함, 다중공선성에 민감
8. 실생활 예시
| 예제 | 설명 |
|---|---|
| 이메일 스팸 분류 | 스팸인지 아닌지 (1/0) |
| 질병 진단 | 양성/음성 여부 |
| 고객 이탈 예측 | 이탈 여부 예측 |
로지스틱 회귀는 단순하면서도 효과적인 분류 모델로, 다양한 분야에서 널리 활용됩니다.

0 댓글