Logistic Regression

python

로지스틱 회귀분석

이전에 작성한 게시물은 오랜만에 봤을 때 이해하기 어렵게 되어 있어 다시 작성함

로지스틱 회귀는 인스턴스가 특정 클래스에 속할 확률을 예측하는 것이 목표인 이진 분류 문제에 사용되는 통계 방법
회귀 알고리즘이 아닌 분류 알고리즘 머신러닝, 통계, 역학 등 다양한 분야에서 활용

시그모이드 함수(로지스틱 함수)

로지스틱 회귀 분석은 시그모이드 함수(로지스틱 함수)를 사용하여 독립 변수와 특정 클래스에 속하는 인스턴스의 확률 간의 관계를 모델링
시그모이드 함수는 다음과 같이 정의

σ(z)=1+e−z1

여기서 z는 입력 특성의 선형 조합

특성의 선형 조합

선형 조합(z)은 편향 항(b)과 함께 입력 특성(x)의 가중 합으로 계산

z=b+w1x1+w2x2+…+wnxn

여기서 w는 각 특성과 관련된 가중치를 나타내고 b는 편향 항

예측

시그모이드 함수를 선형 결합에 적용하여 예측 확률(P(y=1))을 얻음

y^=σ(z)=1+e−z1

이 예측 확률은 인스턴스가 양성 클래스에 속할 가능성을 나타냄

결정 경계

최종 이진 분류 결정을 내리는 데 임계값(일반적으로 0.5)이 사용
예측 확률이 임계값보다 크거나 같으면 인스턴스는 양성 클래스에 속하는 것으로 분류
그렇지 않으면 네거티브 클래스에 속하는 것으로 분류

훈련

모델은 최대 우도 추정이라는 방법을 사용하여 가중치(w)와 편향(b)을 조정하여 훈련
목표는 모델 매개변수가 주어지면 관측된 데이터의 가능성을 최대화

로지스틱 회귀는 단순성, 해석 가능성 및 효율성으로 인해 널리 사용됨

이진 분류 작업에 적합하지만 다중 클래스 분류를 처리하도록 확장될 수 있음