본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (2) 머신러닝의 통계적 학습

Upstage AI Lab 2기

2024년 1월 17일 (수) Day_026

 

Day_026 실시간 강의(1) : ML vs. Stats

Part2. 머신러닝의 통계적 학습

(안창배 강사님)

 

DL은 ML의 하위분야ML : LGBM 등 트리기반 모델로 정형데이터 분석에 강함. 추천, 이상탐지 등에 강함.DL : 영상, 텍스트 등 비정형데이터에 강함

더보기

작년 캐글 중 H&M 프로젝트 있었는데 상위권이 다 LGBM 기반의 트리모델이었음

 

ML의 목적 2가지 : Prediction or Inference

통계의 Inference : 설명력

MLInference : 예측값 산출 (fit -> train -> inference)

train / validation / test - 가장 많이 활용되는 비율은 70 : 15 : 15

 

cross validation

 

sampling

 

https://www.scribbr.com/methodology/sampling-methods/

예) systematic sampling을 소수(13, 29 등) 단위로 하면 bias도 어느 정도 해결됨

 

Ensemble

(ML이니까 가능한?)

Bagging & Boosting

https://medium.com/@ilyurek/ensemble-learning-random-forests-bagging-random-subspace-and-boosting-713c7dbe6823

 

stacking

시간과 노력을 엄청 투자해서 100점짜리를 만들것인가 적당히 컷해서 80점짜리를 만들것인가

https://medium.com/towards-data-science/ensemble-learning-stacking-blending-voting-b37737c4f483

 

 

Recommender system

two stage : candidate generation -> ranking

https://github.com/hyez/Deep-Youtube-Recommendations/blob/master/README.md

 

Explicit data : 좋아요, ratings 등 (but rare data)

vs.

Implicit data : click, view 등

 

positive sampler / negative sampler

https://www.alibabacloud.com/blog/understanding-negative-sampling-in-graph-representation-learning_596748

 

팬층은 두터운데 사용은 제한적인 분야

bayesian, 인과추론, graph

 

 

Part3. ML vs. Stats

Adjusted R2 vs. test R2

 

https://medium.com/analytics-vidhya/adjusted-r-squared-formula-explanation-1ce033e25699

 

Feature Selection (Forward Selection / Backward Elimination / Stepwise Selection)

key point : necessary? sufficient?

https://en.wikipedia.org/wiki/Stepwise_regression

과거의 통계학은 data 부족, 시간 부족 -> Feature Selection

현재의 ML -> 모든 조합을 다 해볼 수 있음, 그래서 최근까지 python에 stepwise 없었음?

예) brute force

 

성능 향상 지표 : AIC / BIC

(정보공학에서 나온 개념)

해석학???

 

Collinearity / Linear Dependency


 

추천 : 내부수식을 numpy로 구현해보기

예를 들면 Kmeans나 ANOVA

 


그 외 키워드

 

six sigma

https://www.simplilearn.com/what-is-six-sigma-a-complete-overview-article

 

SVD(Singular value decomposition)

https://en.wikipedia.org/wiki/Singular_value_decomposition