로지스틱 회귀분석


로지스틱 회귀분석(Logistic Regression) 완벽 정리

로지스틱 회귀분석은 종속변수가 범주형일 때 사용하는 통계적 기법입니다. 주로 이진 분류 문제에 사용되며, 예측 결과를 확률로 해석할 수 있다는 장점이 있습니다.



1. 왜 로지스틱 회귀를 사용하는가?

선형 회귀는 예측값이 0보다 작거나 1보다 클 수 있어 확률로 해석하기 어렵습니다. 로지스틱 회귀는 예측값을 0과 1 사이로 제한하기 위해 시그모이드 함수를 사용합니다.



2. 시그모이드 함수

로지스틱 회귀의 가설 함수는 다음과 같은 시그모이드 형태입니다:

h(x) = 1 / (1 + e^(-θᵀx))
  

모든 입력값을 0과 1 사이의 확률로 변환합니다.



3. 비용 함수 (Cost Function)

로지스틱 회귀는 로그 손실(Log Loss)을 사용합니다:

J(θ) = -1/m ∑ [ y·log(h(x)) + (1 - y)·log(1 - h(x)) ]
  

예측값이 실제값과 다를수록 손실이 크게 계산됩니다.



4. 학습 방법: 경사 하강법

로지스틱 회귀는 비용 함수를 최소화하기 위해 경사 하강법(Gradient Descent)을 사용하여 파라미터(θ)를 반복적으로 업데이트합니다.



5. 예측 방법

예측 확률이 0.5 이상이면 1, 아니면 0으로 분류합니다:

예측 = 1 if h(x) ≥ 0.5 else 0
  


6. 다항 로지스틱 회귀 (Multinomial)

종속변수가 3개 이상의 범주를 가질 경우 소프트맥스 회귀(Softmax Regression)로 확장할 수 있습니다.



7. 장점과 단점

  • 장점: 해석 용이, 계산 효율성 높음, 확률 기반 예측
  • 단점: 비선형 분류에 약함, 다중공선성에 민감


8. 실생활 예시

예제 설명
이메일 스팸 분류 스팸인지 아닌지 (1/0)
질병 진단 양성/음성 여부
고객 이탈 예측 이탈 여부 예측

로지스틱 회귀는 단순하면서도 효과적인 분류 모델로, 다양한 분야에서 널리 활용됩니다.

0 댓글