상자 안의 텍스트출력
입력받은 수 만큼 양 옆의 공백을 만든 뒤 *로 텍스트를 감싼다.
1234567891011121314151617181920212223242526272829303132333435363738394041424344#include <iostream>#include <string>using namespace std;int
다중 분류
둘 이상의 클래스를 분류하는 것
다중 분류기를 구현하는 기법으로는 SGD 분류기, 랜덤 포레스트 분류기, 나이브 베이즈분류기 같은 알고리즘으로 여러 개의 클래스를 직접 처리하거나, 이진 분류기(로지스틱 회귀, 서포트 벡터 머신 분류기 등)을 여러 개 사용해 다중 클래스를 분류하는 방법이 있다
이진 분류기를 여러개를 사용하여 다중 클래스를 분류할
회귀 평가회귀 평가 지표
실제 값과 예측값의 차이를 기반으로 함
MAE, MSE, RMSE, RMSLE는 값이 작을수록 회귀 성능이 좋은 것 값이 작을수록 예측값과 실제값의 차이가 없다는 것을 의미
MSE(Mean Squared Error)
실제 값과 예측 값의 차이를 제곱해 평균한 것
MAE(Mean Absolue Error)
실제 값과 예측 값의 차
성능 측정
정확도
혼동 행렬
정밀도
재현율
F1 Score
ROC curve
AUC
정확도(Accuracy)
전체 값 중에 올바르게 예측한 값이 몇 개인지 판단
직관적으로 모델 예측 성능을 나타내는 평가 지표
예측결과가 동일한 데이터 건수 / 전체 예측 데이터 건수
혼동 행렬(Confusion matrix)
모델의 성능을 평가할 때 사용되는 지표
예측
로지스틱 회귀 분석
회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘
독립변수와 종속변수의 관계를 찾음으로써, 새로운 독립변수의 집합이 주어졌을 때, 종속 변수의 값을 예측할 수 있음
이항 로지스틱 회귀와 다항 로지스틱 회귀
이항 로지
회귀분석
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
변수들 사이의 인과관계를 밝히고 모형을 적합(fit)하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법
독립 변수와 종속변수의 개수 및 특성에 따라 단순 회귀, 다중 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀로 분류
회귀분석의 요소
독립변수(x)
상관분석
연속 변수로 측정된 두 변수간의 선형 관계를 분석하는 기법
두 변수 중 적어도 하나의 변수는 정규분포일 것
연속형 두 변수 간에는 선형적인 관계일 것
공분산
2개의 확률 변수의 상관 정도를 나타내는 값
만약 하나의 값이 상승하는 경향을 보이면서 다른 값도 상승 -> 공분산 값은 양수, 반대면 음수를 보임
공분산 값만으로는 상승, 하강
두 평균의 비교T 검정과 T분포
T검정의 정의
T검정은 모집단의 분산이나 표준편차를 알지 못할 때, 모집단에서 얻은 표본으로부터 추정된 분산이나 추정된 표준편차를 가지고 T분포에 의거하여 검정하는 방법
T분포
자유도에 따라 형태가 달라지는 가족분포이며 평균이 0이고 좌우대칭의 분포인 정규분포이고 표준편차가 1보다 큰 분포
자유도에 따른 T분포의 형태는
가설 설정모집단과 표본 설정
모집단 : 특성을 알고 하는, 연구의 대상이 되는 모든 개체들의 전체 집합
모수 : 모집단의 특성을 나타내는 값
표본 : 연구를 위해서 모집단에서 추출된 일부 값
통계량 : 표본의 특성을 나타내는 결과치
가설의 설정
어떤 사실이나 현상에 대한 법칙이나 결과를 얻어내기 위해 연구 모델을 설계하는 과정 중 하나
검정하고자 하는