로지스틱 회귀분석

로지스틱 회귀분석(Logistic Regression) 완벽 정리

로지스틱 회귀분석은 종속변수가 범주형일 때 사용하는 통계적 기법입니다. 주로 이진 분류 문제에 사용되며, 예측 결과를 확률로 해석할 수 있다는 장점이 있습니다.

1. 왜 로지스틱 회귀를 사용하는가?

선형 회귀는 예측값이 0보다 작거나 1보다 클 수 있어 확률로 해석하기 어렵습니다. 로지스틱 회귀는 예측값을 0과 1 사이로 제한하기 위해 시그모이드 함수를 사용합니다.

로지스틱 회귀의 가설 함수는 다음과 같은 시그모이드 형태입니다:

h(x) = 1 / (1 + e^(-θᵀx))

모든 입력값을 0과 1 사이의 확률로 변환합니다.

로지스틱 회귀는 로그 손실(Log Loss)을 사용합니다:

J(θ) = -1/m ∑ [ y·log(h(x)) + (1 - y)·log(1 - h(x)) ]

예측값이 실제값과 다를수록 손실이 크게 계산됩니다.

로지스틱 회귀는 비용 함수를 최소화하기 위해 경사 하강법(Gradient Descent)을 사용하여 파라미터(θ)를 반복적으로 업데이트합니다.

예측 확률이 0.5 이상이면 1, 아니면 0으로 분류합니다:

예측 = 1 if h(x) ≥ 0.5 else 0

종속변수가 3개 이상의 범주를 가질 경우 소프트맥스 회귀(Softmax Regression)로 확장할 수 있습니다.

로지스틱 회귀는 단순하면서도 효과적인 분류 모델로, 다양한 분야에서 널리 활용됩니다.