Archive: 2024/2
Random Forest
랜덤 포레스트의사결정 트리를 구성하여 개별 트리의 클래스 분류 또는 회귀 분석 앙상블 학습 알고리즘 의사결정 트리 각 트리는 특성의 하위 집합과 데이터의 무작위 하위 집합을 사용하여 구성 부트스트랩 의사결정 트리를 독립적으로 학습시키는 배깅 기술 사용 각 트리에 대해 원본 데이터 세트의 무작위 샘플이 사용 무작위 기능 하위 집합 각 트리는 임의의 기능
K-Means Clustering
K-평균 군집화 비지도 머신러닝 알고리즘 데이터 세트를 K개의 클러스터로 분할하는 것이 목표 각 군집은 서로 유사한 데이터 그룹 중심 클러스터의 중심을 나타내는 특징, 공간의 지점인 K개의 중심을 식별 처음에는 중심이 데이터에서 무작위로 선택 배정 단계 각 데이터는 중심에서 가까운 군집에 할당(유클리드 거리 사용) 업데이트 데이터를 할당 후 데이터의
Scikit-Learn
Scikit-Learn Python 오픈 소스 머신러닝 라이브러리 Numpy, SciPy, Matplotlib 등 Python 라이브러리 기반 기능 분류 알고리즘(ex. SVM, 의사결정 트리, 랜덤 포레스트) 회귀 알고리즘(ex. 선형 회귀, 능선 회귀) 클러스터링(ex. K-평균, 계층적 클러스터링) 차원 축소(ex. PCA - 주성분 분석) 데이터
statistical
통계기법기본적인 통계기법 정리기술통계 중심 경향 측정 : 평균, 중앙값, 최빈값 분산 측정 : 범위, 분산, 표준 편차 분위수 및 백분위수 추론통계 가설 테스트 : 그룹 간에 유의미한 차이가 있는지 또는 관찰된 효과가 실제인지 확인 신뢰 구간 : 모집단 매개변수가 속할 가능성이 있는 값 범위를 제공 회귀 분석 : 하나 이상의 독립 변수와 종속 변수 간의
Logistic Regression
로지스틱 회귀분석이전에 작성한 게시물은 오랜만에 봤을 때 이해하기 어렵게 되어 있어 다시 작성함 로지스틱 회귀는 인스턴스가 특정 클래스에 속할 확률을 예측하는 것이 목표인 이진 분류 문제에 사용되는 통계 방법 회귀 알고리즘이 아닌 분류 알고리즘 머신러닝, 통계, 역학 등 다양한 분야에서 활용 시그모이드 함수(로지스틱 함수) 로지스틱 회귀 분석은 시그모이