Category: Python

0

Funnel Analysis

Funnel Analysis퍼널 분석(Funnel Analysis)은 사용자가 특정 목표를 달성하기까지 거치는 일련의 단계를 분석하는 방법입니다. 주로 웹사이트나 앱에서 사용자가 목표 행동(예: 구매, 회원가입, 다운로드 등)을 완료하기 위해 거치는 경로를 추적하는 데 사용됩니다. 이 분석을 통해 각 단계에서 사용자가 얼마나 이탈하는지, 즉 목표에 도달하지

0

Data_ASE

데이터 사이언티스트, 분석가, 엔지니어데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어는 모두 데이터 관련 업무를 수행하지만, 그 역할과 책임은 다릅니다. 이들의 차이점을 아래와 같이 정리할 수 있습니다. 데이터 사이언티스트 (Data Scientist)주요 역할: 복잡한 데이터 문제를 해결하기 위해 통계, 기계 학습, 데이터 분석 기술을 사용. 새로

0

Feature Engineering_RE

Feature Engineering기존의 포스팅은 당시 Kaggle 공모전에 앞서 내 할 것만 포스팅 한 느낌이라 다시 정리 피쳐 엔지니어링은 머신러닝 모델의 성능을 향상시키기 위해 데이터를 준비하고 변환하는 과정 데이터 수집 및 이해 데이터의 출처와 의미를 이해합니다. 데이터의 형식, 특성, 결측치 등을 파악합니다. 데이터 전처리: 결측값

0

ETL&ELT

ETL과 ELTETL (Extract, Transform, Load)ETL은 데이터를 추출(Extract), 변환(Transform), 로드(Load)하는 전통적인 데이터 처리 방식입니다. 다음은 각 단계에 대한 설명입니다. Extract (추출) 여러 소스(데이터베이스, 파일 시스템, API 등)에서 데이터를 추출합니다. 이 단계에서는 원본 데이터를 수집

0

Pytorch

Pytorch 딥 러닝 오픈 소스 라이브러리 동적 계산 그래프 제공 신경망 훈련 및 딥 러닝 앱 작업 텐서 계산, 자동 미분 지원 ex) 신경망 생성 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162

0

Keras

Keras 딥러닝 모델 구축, 학습 인터페이스 Tensorflow와 함께 사용되며, 간편한 구성과 확장성 제공 ex) 선형회귀 예시(입력 변수와 출력 변수 간의 선형 관계 모델링) 123456789101112131415161718192021222324252627import numpy as npimport tensorflow as tffrom tensorf

0

ANOVA

분산 분석 세 개 이상의 독립 그룹의 평균 간에 통계적으로 유의미한 차이 여부 평가 그룹 간 변동성, 그룹 내 변동성 귀무가설(H0) 모든 그룹의 평균이 동일하다고 가정 대립가설(H1) 적어도 하나의 그룹 평균이 다른 그룹 평균과 다름 F-통계 분산의 비율 값이 크다면 그룹 간 병동성이 그룹 내 변동성보다 크다는 것을 나타냄 자유도 그룹 간 자유도는

0

Random Forest

랜덤 포레스트의사결정 트리를 구성하여 개별 트리의 클래스 분류 또는 회귀 분석 앙상블 학습 알고리즘 의사결정 트리 각 트리는 특성의 하위 집합과 데이터의 무작위 하위 집합을 사용하여 구성 부트스트랩 의사결정 트리를 독립적으로 학습시키는 배깅 기술 사용 각 트리에 대해 원본 데이터 세트의 무작위 샘플이 사용 무작위 기능 하위 집합 각 트리는 임의의 기능

0

K-Means Clustering

K-평균 군집화 비지도 머신러닝 알고리즘 데이터 세트를 K개의 클러스터로 분할하는 것이 목표 각 군집은 서로 유사한 데이터 그룹 중심 클러스터의 중심을 나타내는 특징, 공간의 지점인 K개의 중심을 식별 처음에는 중심이 데이터에서 무작위로 선택 배정 단계 각 데이터는 중심에서 가까운 군집에 할당(유클리드 거리 사용) 업데이트 데이터를 할당 후 데이터의

0

ARIMA

ARIMA(자기회귀 통합 이동 평균)자기회귀(AR) 구성요소(p) 자기회귀 구성 요소는 관찰과 일부 지연된 관찰(이전 시간 단계)간의 관계 캡처 “p”라는 용어는 자기회귀 구성요소의 순서를 나타내며, 고려되는 지연된 관측치 수 통합(I) 구성요소(d) 통합 구성 요소에는 시계열 데이터를 차별화하여 고정시키는 작업이 포함, 정상성은 평균, 분산 등 시계열의