로지스틱 회귀분석
이전에 작성한 게시물은 오랜만에 봤을 때 이해하기 어렵게 되어 있어 다시 작성함
- 로지스틱 회귀는 인스턴스가 특정 클래스에 속할 확률을 예측하는 것이 목표인 이진 분류 문제에 사용되는 통계 방법
- 회귀 알고리즘이 아닌 분류 알고리즘 머신러닝, 통계, 역학 등 다양한 분야에서 활용
시그모이드 함수(로지스틱 함수)
- 로지스틱 회귀 분석은 시그모이드 함수(로지스틱 함수)를 사용하여 독립 변수와 특정 클래스에 속하는 인스턴스의 확률 간의 관계를 모델링
- 시그모이드 함수는 다음과 같이 정의
σ(z)=1+e−z1
- 여기서 z는 입력 특성의 선형 조합
특성의 선형 조합
- 선형 조합(z)은 편향 항(b)과 함께 입력 특성(x)의 가중 합으로 계산
z=b+w1x1+w2x2+…+wnxn
- 여기서 w는 각 특성과 관련된 가중치를 나타내고 b는 편향 항
예측
- 시그모이드 함수를 선형 결합에 적용하여 예측 확률(P(y=1))을 얻음
y^=σ(z)=1+e−z1
- 이 예측 확률은 인스턴스가 양성 클래스에 속할 가능성을 나타냄
결정 경계
- 최종 이진 분류 결정을 내리는 데 임계값(일반적으로 0.5)이 사용
- 예측 확률이 임계값보다 크거나 같으면 인스턴스는 양성 클래스에 속하는 것으로 분류
- 그렇지 않으면 네거티브 클래스에 속하는 것으로 분류
훈련
- 모델은 최대 우도 추정이라는 방법을 사용하여 가중치(w)와 편향(b)을 조정하여 훈련
- 목표는 모델 매개변수가 주어지면 관측된 데이터의 가능성을 최대화
로지스틱 회귀는 단순성, 해석 가능성 및 효율성으로 인해 널리 사용됨
이진 분류 작업에 적합하지만 다중 클래스 분류를 처리하도록 확장될 수 있음