Feature Engineering_RE
Feature Engineering기존의 포스팅은 당시 Kaggle 공모전에 앞서 내 할 것만 포스팅 한 느낌이라 다시 정리 피쳐 엔지니어링은 머신러닝 모델의 성능을 향상시키기 위해 데이터를 준비하고 변환하는 과정 데이터 수집 및 이해 데이터의 출처와 의미를 이해합니다. 데이터의 형식, 특성, 결측치 등을 파악합니다. 데이터 전처리: 결측값
Feature Engineering기존의 포스팅은 당시 Kaggle 공모전에 앞서 내 할 것만 포스팅 한 느낌이라 다시 정리 피쳐 엔지니어링은 머신러닝 모델의 성능을 향상시키기 위해 데이터를 준비하고 변환하는 과정 데이터 수집 및 이해 데이터의 출처와 의미를 이해합니다. 데이터의 형식, 특성, 결측치 등을 파악합니다. 데이터 전처리: 결측값
랜덤 포레스트의사결정 트리를 구성하여 개별 트리의 클래스 분류 또는 회귀 분석 앙상블 학습 알고리즘 의사결정 트리 각 트리는 특성의 하위 집합과 데이터의 무작위 하위 집합을 사용하여 구성 부트스트랩 의사결정 트리를 독립적으로 학습시키는 배깅 기술 사용 각 트리에 대해 원본 데이터 세트의 무작위 샘플이 사용 무작위 기능 하위 집합 각 트리는 임의의 기능
K-평균 군집화 비지도 머신러닝 알고리즘 데이터 세트를 K개의 클러스터로 분할하는 것이 목표 각 군집은 서로 유사한 데이터 그룹 중심 클러스터의 중심을 나타내는 특징, 공간의 지점인 K개의 중심을 식별 처음에는 중심이 데이터에서 무작위로 선택 배정 단계 각 데이터는 중심에서 가까운 군집에 할당(유클리드 거리 사용) 업데이트 데이터를 할당 후 데이터의
Scikit-Learn Python 오픈 소스 머신러닝 라이브러리 Numpy, SciPy, Matplotlib 등 Python 라이브러리 기반 기능 분류 알고리즘(ex. SVM, 의사결정 트리, 랜덤 포레스트) 회귀 알고리즘(ex. 선형 회귀, 능선 회귀) 클러스터링(ex. K-평균, 계층적 클러스터링) 차원 축소(ex. PCA - 주성분 분석) 데이터
통계기법기본적인 통계기법 정리기술통계 중심 경향 측정 : 평균, 중앙값, 최빈값 분산 측정 : 범위, 분산, 표준 편차 분위수 및 백분위수 추론통계 가설 테스트 : 그룹 간에 유의미한 차이가 있는지 또는 관찰된 효과가 실제인지 확인 신뢰 구간 : 모집단 매개변수가 속할 가능성이 있는 값 범위를 제공 회귀 분석 : 하나 이상의 독립 변수와 종속 변수 간의