R

로지스틱 회귀

로지스틱 회귀 분석

  • 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘

  • 독립변수와 종속변수의 관계를 찾음으로써, 새로운 독립변수의 집합이 주어졌을 때, 종속 변수의 값을 예측할 수 있음

이항 로지스틱 회귀와 다항 로지스틱 회귀

  • 이항 로지스틱 회귀
    -> 범주가 두개인 결과 변수 예측
  • 다항 로지스틱 회귀
    -> 2개보다 많은 결과 변수 예측

로지스틱 회귀 3가지 요소

  1. Odds
  2. Logit 변환
  3. 시그모이드 함수

Odds

  • 범주 0에 속할 확률 대비 범주 1에 속할 확률

Logit 변환

  • odds에 log를 앞에 붙인 형태를 Logit 변환이라고 함
  • Log를 붙이면 형태가 선형형태로 바뀌고 수식도 간단해짐

시그모이드 함수

  • 확률을 0에서 1사이로 커브 모양으로 나타내야 하는데, 이걸 가능하게 해주는게 바로 Sigmoid 함수다.
  • 시그모이드 함수는 결과 값을 0~1 사이의 값으로 변환해주는 역할만 한다.
  • Odds를 Sigmoid 함수에 넣어서 0~1 사이 값으로 변환해준다.

로그 가능도

  • 가정된 분포에서 주어진 데이터가 나올 확률
  • 계산과 편의를 위해 일반적으로 가능도함수에 로그함수를 씌어 사용
  • GLM은 최소제곱법이 아닌 최대가능도추정법을 이용

이탈도

  • 로지스틱 회귀모형이 얼마나 데이터를 못 설명하는지에 대한 척도
  • 어떤 모형의 a의 최대로그우도에서 포화모형 b의 최대로그우도를 뺀 것에 -2를 곱한 것
  • 카이제곱분포를 사용하기 때문에 이탈도 값의 유의성을 계산하기 쉽기 때문에 로그가능도 보다 더 많이 사용을 한다
  • 이탈도가 낮을 수록 좋은 모형

AIC

  • 입력변수의 수가 증가한다고 항상 작아지지는 않으므로 가장 작은 AIC를 가지는 모형을 선택
  • AIC 값은 낮을수록 좋다.
Share