본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day031] Machine Learning Workflow (1)

Upstage AI Lab 2기
2024년 1월 24일 (수) Day_031 (all day)

Day_031 실시간 강의 : Machine Learning Workflow (1)

(김용담 강사님)

 

꼭 보길 추천

https://www.youtube.com/watch?v=nKW8Ndu7Mjw

 

(c) 2024. codingiscoffee Co. all rights reserved.

 

 

데이터 분석 문제 정의 step by step

 

1. 해당 문제는 예측이 필요한 문제인가?

2. 예측 모델 개발에 필요한 데이터를 얻을 수 있는가? 

3. 문제 해결 방식이 deterministic 해야하는가?

4. 상황에 대한 해석이 필요한 문제인가?

5. 정량적 해석이 중요한가, 정성적 해석이 중요한가?

6. 문제 해결에 모델의 성능이 중요한가?

7. 문제 해결에 많은 computing resource가 필요한가?

 

더보기

1. 해당 문제는 예측이 필요한 문제인가?

현상해석 => EDA / 예측 => ML+DL

예측을 해야하는 문제가 아니라면 ML 레벨까지 갈 필요가 없음.

 

**2. 예측 모델 개발에 필요한 데이터를 얻을 수 있는가? 

data quality ( + quantity)

note. 몇 백개로는 학습 불가

 

3. 문제 해결 방식이 deterministic 해야하는가? 

rule-based algorithm(ML 아님) ↔ probabilistic approach(틀릴 수 있지만 유연함이 있음)

deterministic ↔ stochastic

유연성과 확실성 사이 tradeoff

deterministic approach는 같은 문제에 대해 늘 같은 결론을 도출함.

예) 정렬, search

 

4. 상황에 대한 해석이 필요한 문제인가?

risk-free한 solution 필요시 → deterministic approach (e.g. 통계모델)

for 해석가능성   ∵ 잘못되었을 시 판단/개입/책임 필요

 

5. 정량적 해석이 중요한가, 정성적 해석이 중요한가?

정량적 : 지표(KPI)

정성적 : 해석(domain)

 

예시) 추천시스템에서 성능값과 실제 선호도가 다를 수 있음.

 

6. 문제 해결에 모델의 성능이 중요한가?

performance → evaluation metric

(보통은 적당한 성능과 보편성이 요구 .)

 

7. 문제 해결에 많은 computing resource가 필요한가?

= computational cost

특히 transformer 모델 기반에서 AI를 위한 반도체 이슈

NPU (Neural Processing Unit)

① FLOPS (floating point operations per second) - cores dependent (GPU/CPU)

② memory capacity (RAM, VRAM)

③ storage (SSD)

 

(c) 2024. codingiscoffee Co. all rights reserved.

 

머신러닝(Machine Learning)의 정의

(c) 2024. codingiscoffee Co. all rights reserved.

E : Experience

T : Task

P : Performance Measure

 

T, P0 ---(E)---> T, P1

P0 ≤ P1

이 중 한 조건이라도 깨지면 안 됨.

 

머신러닝 방법론

(c) 2024. codingiscoffee Co. all rights reserved.

 

Supervised Learning vs. Unsupervised Learning의 정의가 중요!

Supervised Learning - 학습에 input vector(X)와 target value(y) 모두 사용

Unsupervised Learning - 학습에 input vector(X)만 사용

 

Data Split

(지도학습에서 유효한 방법 / 비지도학습의 검증방법은 다름)

(c) 2024. codingiscoffee Co. all rights reserved.

면접 Q. validation 과 test data의 차이

지도 학습의 두 가지 전제 : ① program을 학습시키는 상황 & ② 실제 상황에서도 잘 작동하길 바람

P_train 과 P_val이 동시에 증가해야 함.

**test data는 반복 사용하지 않는다!

if) 

P_train ↑ P_val ↓ = "overfitting"

P_train ↓ P_val ↓ = "underfitting"