Category: Python

0

다중 분류

다중 분류 둘 이상의 클래스를 분류하는 것 다중 분류기를 구현하는 기법으로는 SGD 분류기, 랜덤 포레스트 분류기, 나이브 베이즈분류기 같은 알고리즘으로 여러 개의 클래스를 직접 처리하거나, 이진 분류기(로지스틱 회귀, 서포트 벡터 머신 분류기 등)을 여러 개 사용해 다중 클래스를 분류하는 방법이 있다 이진 분류기를 여러개를 사용하여 다중 클래스를 분류할

0

회귀 평가

회귀 평가회귀 평가 지표 실제 값과 예측값의 차이를 기반으로 함 MAE, MSE, RMSE, RMSLE는 값이 작을수록 회귀 성능이 좋은 것 값이 작을수록 예측값과 실제값의 차이가 없다는 것을 의미 MSE(Mean Squared Error) 실제 값과 예측 값의 차이를 제곱해 평균한 것 MAE(Mean Absolue Error) 실제 값과 예측 값의 차

0

성능 측정

성능 측정 정확도 혼동 행렬 정밀도 재현율 F1 Score ROC curve AUC 정확도(Accuracy) 전체 값 중에 올바르게 예측한 값이 몇 개인지 판단 직관적으로 모델 예측 성능을 나타내는 평가 지표 예측결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 혼동 행렬(Confusion matrix) 모델의 성능을 평가할 때 사용되는 지표 예측

0

classification

설정 matplotlib 그래프를 인라인으로 출력 그림을 저장하는 함수 12345678910111213141516171819202122232425262728293031323334353637383940# 파이썬 ≥3.5 필수import sysassert sys.version_info >= (3, 5)# 사이킷런 ≥0.20 필수import sklearn

0

Feature Engineering

데이터 수집 시각화 -> 변수 간의 조합 기초통계 : Feature Engineering Feature Engineering 이상치 처리, 중복값 제거, 문자 데이터 –> 수치 (인코딩) 정규화, 표준화, 도출 변수 및 불필요한 삭제 PCA(차원 축소),EFA 결측치 확인 : 1) 결측치 제거 : 2) 결측치 채우기 - 중간값,

0

Pandas10min

Pandas new usersimport12import numpy as npimport pandas as pd 객체 생성123s = pd.Series([1,3,5,np.nan,6,8])s 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 DataFrameDatetime 인덱

0

시각화

Matplotlib데이터 불러오기 123456789101112131415import matplotlib.pyplot as pltdates = [ '2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05

0

List and tuple

리스트와 튜플12list = [1, 2, "a", 3, 4] # 리스트의 형태tuple = (5, 6, "b", 7, 8) # 튜플의 형태 두 타입 모두 요소의 순서를 관리하지만 기술적으로 유일한 차이점이 있다. 리스트는 가변(mutable)성 튜플은 불변(immutable)성 즉 튜플은 append, insert,