Upstage AI Lab 2기
2024년 1월 24일 (수) Day_031 (all day)
Day_031 실시간 강의 : Machine Learning Workflow (1)
(김용담 강사님)
꼭 보길 추천
https://www.youtube.com/watch?v=nKW8Ndu7Mjw
데이터 분석 문제 정의 step by step
1. 해당 문제는 예측이 필요한 문제인가?
2. 예측 모델 개발에 필요한 데이터를 얻을 수 있는가?
3. 문제 해결 방식이 deterministic 해야하는가?
4. 상황에 대한 해석이 필요한 문제인가?
5. 정량적 해석이 중요한가, 정성적 해석이 중요한가?
6. 문제 해결에 모델의 성능이 중요한가?
7. 문제 해결에 많은 computing resource가 필요한가?
1. 해당 문제는 예측이 필요한 문제인가?
현상해석 => EDA / 예측 => ML+DL
예측을 해야하는 문제가 아니라면 ML 레벨까지 갈 필요가 없음.
**2. 예측 모델 개발에 필요한 데이터를 얻을 수 있는가?
data quality ( + quantity)
note. 몇 백개로는 학습 불가
3. 문제 해결 방식이 deterministic 해야하는가?
rule-based algorithm(ML 아님) ↔ probabilistic approach(틀릴 수 있지만 유연함이 있음)
deterministic ↔ stochastic
유연성과 확실성 사이 tradeoff
deterministic approach는 같은 문제에 대해 늘 같은 결론을 도출함.
예) 정렬, search
4. 상황에 대한 해석이 필요한 문제인가?
risk-free한 solution 필요시 → deterministic approach (e.g. 통계모델)
for 해석가능성 → ∵ 잘못되었을 시 판단/개입/책임 필요
5. 정량적 해석이 중요한가, 정성적 해석이 중요한가?
정량적 : 지표(KPI)
정성적 : 해석(domain)
예시) 추천시스템에서 성능값과 실제 선호도가 다를 수 있음.
6. 문제 해결에 모델의 성능이 중요한가?
performance → evaluation metric
(보통은 적당한 성능과 보편성이 요구 .)
7. 문제 해결에 많은 computing resource가 필요한가?
= computational cost
특히 transformer 모델 기반에서 AI를 위한 반도체 이슈
NPU (Neural Processing Unit)
① FLOPS (floating point operations per second) - cores dependent (GPU/CPU)
② memory capacity (RAM, VRAM)
③ storage (SSD)
머신러닝(Machine Learning)의 정의
E : Experience
T : Task
P : Performance Measure
T, P0 ---(E)---> T, P1
P0 ≤ P1
이 중 한 조건이라도 깨지면 안 됨.
머신러닝 방법론
Supervised Learning vs. Unsupervised Learning의 정의가 중요!
Supervised Learning - 학습에 input vector(X)와 target value(y) 모두 사용
Unsupervised Learning - 학습에 input vector(X)만 사용
Data Split
(지도학습에서 유효한 방법 / 비지도학습의 검증방법은 다름)
면접 Q. validation 과 test data의 차이
지도 학습의 두 가지 전제 : ① program을 학습시키는 상황 & ② 실제 상황에서도 잘 작동하길 바람
P_train 과 P_val이 동시에 증가해야 함.
**test data는 반복 사용하지 않는다!
if)
P_train ↑ P_val ↓ = "overfitting"
P_train ↓ P_val ↓ = "underfitting"
'Upstage AI Lab 2기' 카테고리의 다른 글
Upstage AI Lab 2기 [Day041] 자료구조 및 알고리즘 (2) (0) | 2024.02.07 |
---|---|
Upstage AI Lab 2기 [Day040] 자료구조 및 알고리즘 (1) (0) | 2024.02.06 |
Upstage AI Lab 2기 [Day031] 머신러닝 기초 개념 이해 (1) (0) | 2024.01.23 |
Upstage AI Lab 2기 [Day028] 실시간 강의 - 통계(4) (0) | 2024.01.19 |
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (3) Statistical Learning (0) | 2024.01.18 |