회귀분석
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합(fit)하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법
- 독립 변수와 종속변수의 개수 및 특성에 따라 단순 회귀, 다중 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀로 분류
회귀분석의 요소
- 독립변수(x) : 영향을 주는 변수, 설명변수, 예측변수
- 종속변수(y) : 영향을 받는 변수, 반응변수, 결과변수
- 잔차 : 표본 집단에서 회귀식을 얻고, 그 회귀식을 통해 도출한 예측값과 실제값의 차이
회귀 계수의 추정
- 최소 제곱법
자료에 가장 잘 맞는 선을 찾는 방법.
이 방법을 통해 최량 적합선을 찾는다. 관측된 자료점에서 이탈도가 가장 작은 직선그래프
측정값을 기초로 하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 오차 제곱의 합이 가장 작은 해를 구하는 것
적합도 검정
모형이 자료에서 벗어난 정도로 표현
- F-value : 여러 표본 간 차이의 회귀성과 유의성을 나타내는 통계적 지표. 회귀식의 설명력에 대한 수치이다.
회귀 분석의 종류
- 단순 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
- 다중 회귀 : 독립변수가 k개이며, 종속변수와의 관계가 선형(1차 함수)
- 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 단계(단, 독립변수가 1개일 경우에는 2차 함수 이상)
- 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
로지스틱 회귀
종속변수가 범주형(2진 변수)인 경우 적용
단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
비선형 회귀 : 회귀식 모양이 선형관계로 이뤄져 있지 않은 모형
다중 회귀분석
- 두개 이상의 독립 변수들과 하나의 종속 변수의 관계를 분석하는 기법으로 단순 회귀 분석을 확장한 것.
- 단순회귀분석보다는 추가적인 독립변수를 도입함으로써 오차항의 값을 줄여 분석 내용을 향상시킬 수 있다.
- 회귀 모형에서 독립변수가 추가된다는 것은 분석 그래프의 차원이 증가함을 의미하기 때문에 3차원 이상의 그래프이다.
- 독립변수들의 선형적 결합으로 종속변수를 예측하는 통계기법
다중 회귀식의 추정 방법
- 동시 입력
- 연구자가 고려하는 모든 독립변수들을 한꺼번에 넣고 분석하는 방법
- 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력을 알 수 있음.
- 연구자가 고려하는 모든 독립변수들이 동시에 종속 변수를 설명하는 정도를 나타냄.
- 단계적 입력
- 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키는 방식
- 설명력이 높은 변수의 순으로 회귀식에 포함
- 전 단계에서 회귀식에 포함된 독립 변수들도 나중에 들어오는 변수 때문에 설명력이 매우 낮아지면 회귀식에서 제거
- 종속 변수를 설명하는 데에 있어서 설명력이 어느정도 이상되는 변수들로만 구성된 회귀식을 발견하는데에 유용하다.
- 후진
- 모든 독립 변수를 모두 포함한 상태에서 기여도가 적은 변수부터 하나씩 빼기 시작한다.
- 모델에 남아있는 변수들의 p-value가 유의수준 이하가 될 때까지 삭제하는 방법
- 전진
- 독립 변수가 하나도 포함되지 않은 모델로부터 출발한다.
- F값에 가장 큰 기여를 하는 변수를 순서대로 하나씩 더해가는 방법
다중 회귀 분석의 최소제곱법
- 모집단에 대한 기본 가정들이 충족된다는 가정하에, 최소제곱법을 이용하여 표본회귀선을 도출할 수 있다.
다중 회귀 분석의 적합도
- 아카이케 정보기준(AIC)
모형에 변수를 추가할수록 R제곱이 점점 커지는 점을 보완하기 위해 나온 개념. 모형에 예측 변수가 많을수록 벌점을 준다는 특징이 있다.
회귀 모형의 전제
- 회귀 분석은 회귀선을 그리는게 전부가 아니다. 이 데이터가 신뢰할 수 있는 모형인지, 회귀분석에 적합한 데이터인지 확인하는 과정이 필수적이다.
- 회귀분석을 하려면 데이터가 선형성, 독립성, 등분산성, 정상성의 가정을 만족시킬 수 있어야한다.
회귀 모형의 가정
- 선형성
- 독립변수의 각 수준에서 종속변수의 분포의 평균은 직선상에 위치한다. 즉, 회귀 모형은 종속변수와 독립변수들이 선형적 관계를 갖는다고 가정될 수 있을 때 사용된다.
- 선형적이란 말은 독립변수의 변화에 따라 종속변수도 일정 크기로 변화한다는 뜻이다.
- 잔차의 산점도를 통하여 선형성을 파악한다.
- 독립성
- 종속변수들은 통계적으로 독립적이어야 한다. 독립변수 x와 오차항이 통계적으로 상호 독립적이며, 잔차는 자기상관이 없어야 한다.
- 잔차의 산점도를 통하여 잔차들이 일정한 경향성 없이 일정하게 분포되었는지 확인하기 위해서, 통계량으로는 더빗 왓슨 검정 실시한다.
- 등분산성
- 독립변수의 모든 값에 대해 오차들의 분산이 일정해야 한다.
- 정상성
- 잔차항이 정규 분포를 이뤄야 한다.
- 샤피로-월크 검정, 콜모고로프-스미르노프 적합성 검정을 이용하여 검정한다.
- 주로, 시각화를 통한 검정 기법으로 Q-Q plot을 사용한다.
회귀 모형의 전제
- 다중 공선성
- 모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 조건이다.
- 통계의 가정과는 관계없지만 다중회귀 결과를 해석할 때 중요하다.
- 중대한 다중공산성은 회귀계수의 분산을 증가시켜 불안정하고 해석이 어렵게 만들어 문제가 된다.
중대한 다중공산성 문제를 해결하기 위해 높은 상관 관계가 있는 예측변수를 모형에서 제거하는 방법을 사용한다. - 이러한 다중공산성을 알아내기 위해 F 검정을 사용한다.
회귀 모형 종류에 따른 가정 검증
- 단순선형 회귀 분석
- 독립변수와 종속변수 간의 선형성 검증
- 선형성 검증을 위해 산점도 활용
- 다중선형 회귀 분석
- 회귀 모형 가정인 선형성, 독립성, 등분산성, 정상성, 다중공산성을 모두 만족하는지 검증
회귀 모형 검증
- F 통계량 확인. 유의수준 5%이하에서 F-통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의
- 해당 계수의 T-통계량과 p-값 또는 이들의 신뢰구간 확인
- 잔차를 그래프로 그리고 회귀진단을 한다.
- 선형성, 독립성, 등분산성, 비상관성, 정상성 가정을 만족시켜야 함
- 결정계수를 확인, 결정계수는 0~1을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
회귀 직선의 적합도 검토 및 모형의 통계적 유의성
- 회귀 직선의 적합도 검토
- 결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토한다.
- 결정계수가 1에 가까울수록 회귀 모형이 자료를 잘 설명한 것이다. 이것으로 독립변수가 종속변수 변동의 몇 %를 설명하는지 알 수 있다.
- 다변량 회귀 분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있음. -> AIC로 보완
- 모형의 통계적 유의성
- 모형의 통계적 유의성은 F-통계량으로 확인할 수 있다.
- 유의수준 5%이하에서 F-통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
- F-통계량이 크면 p-값이 0.05보다 작아지고 이렇게 되면 귀무가설을 기각하므로 모형이 유의하다고 결론 지을 수 있다.