Upstage AI Lab 2기
2024년 1월 17일 (수) Day_026
Day_026 실시간 강의(1) : ML vs. Stats
Part2. 머신러닝의 통계적 학습
(안창배 강사님)
DL은 ML의 하위분야ML : LGBM 등 트리기반 모델로 정형데이터 분석에 강함. 추천, 이상탐지 등에 강함.DL : 영상, 텍스트 등 비정형데이터에 강함
작년 캐글 중 H&M 프로젝트 있었는데 상위권이 다 LGBM 기반의 트리모델이었음
ML의 목적 2가지 : Prediction or Inference
통계의 Inference : 설명력
ML의 Inference : 예측값 산출 (fit -> train -> inference)
train / validation / test - 가장 많이 활용되는 비율은 70 : 15 : 15
cross validation
sampling
https://www.scribbr.com/methodology/sampling-methods/
예) systematic sampling을 소수(13, 29 등) 단위로 하면 bias도 어느 정도 해결됨
Ensemble
(ML이니까 가능한?)
Bagging & Boosting
stacking
시간과 노력을 엄청 투자해서 100점짜리를 만들것인가 적당히 컷해서 80점짜리를 만들것인가
https://medium.com/towards-data-science/ensemble-learning-stacking-blending-voting-b37737c4f483
Recommender system
two stage : candidate generation -> ranking
https://github.com/hyez/Deep-Youtube-Recommendations/blob/master/README.md
Explicit data : 좋아요, ratings 등 (but rare data)
vs.
Implicit data : click, view 등
positive sampler / negative sampler
팬층은 두터운데 사용은 제한적인 분야
bayesian, 인과추론, graph
Part3. ML vs. Stats
Adjusted R2 vs. test R2
https://medium.com/analytics-vidhya/adjusted-r-squared-formula-explanation-1ce033e25699
Feature Selection (Forward Selection / Backward Elimination / Stepwise Selection)
key point : necessary? sufficient?
과거의 통계학은 data 부족, 시간 부족 -> Feature Selection
현재의 ML -> 모든 조합을 다 해볼 수 있음, 그래서 최근까지 python에 stepwise 없었음?
예) brute force
성능 향상 지표 : AIC / BIC
(정보공학에서 나온 개념)
해석학???
Collinearity / Linear Dependency
추천 : 내부수식을 numpy로 구현해보기
예를 들면 Kmeans나 ANOVA
그 외 키워드
six sigma
https://www.simplilearn.com/what-is-six-sigma-a-complete-overview-article
SVD(Singular value decomposition)
https://en.wikipedia.org/wiki/Singular_value_decomposition
'Upstage AI Lab 2기' 카테고리의 다른 글
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (3) Statistical Learning (0) | 2024.01.18 |
---|---|
Upstage AI Lab 2기 [Day027] 선형회귀분석 (0) | 2024.01.18 |
Upstage AI Lab 2기 [Day026] 온라인 강의 - 기초통계 (3) 실습 (0) | 2024.01.17 |
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (1) 통계 톺아보기 (0) | 2024.01.17 |
Upstage AI Lab 2기 [Day026] 온라인 강의 - 기초통계 (2) (0) | 2024.01.17 |