Upstage AI Lab 2기
2024년 3월 19일 (목) Day_069
오늘의 todo
- [ ] 파생변수 선택 (실습) 마무리
- [ ] 파생변수 선택 (이론) 정리
- [o] 머신러닝 기본 모델 (이론)
- [o] 머신러닝 심화 모델 (이론)
CH04. ML 기본모델(이론) - Linear regression, KNN, Decision Tree, Random Forest
선택하는 모델에 따라 전처리가 달라질 수도 있고, 학습 및 평가의 결과에 따라 모델이 달라질 수 있음.
이런 것들을 고려하여 모델을 선택하는 것이 중요
목적 - 분류 or 회귀
선형모델 / 비선형모델(트리모델, KNN 등)
선형회귀 Linear regression
해석력
- 금융 등 해석력이 중요한 분야들이 있음
- 선형회귀를 이용해 분석하는 모델들이 꾸준히 나오고 있음
장점 : 학습 및 예측 속도가 빠름, 모델의 해석이 명확함
단점 : 현실에서 선형관계를 갖는 X와 y가 많지 않음. 이상치에 민감
선형회귀의 가정 : 1. 선형성 2. 잔차의 정규성과 등분산성 3. 독립성
(회귀 분석의 신뢰성을 높이는데 필요한 가정들)
1. 선형성
주로 시각화로 확인
처리 방법 : 변수 제거 or 선형성을 갖도록 변환 (예시 - 시각화해보니 y=x^2 같다 -> x에 대해 power transformation)
2. 잔차의 정규성과 등분산성
QQ plot으로 확인 가능
정규성 : 잔차들의 평균이 0인 정규분포를 구성
등분산성 : 잔차들의 분산 일정
잔차들의 분산이 일정한 경우 | 잔차들의 분산이 일정하지 않은 경우 |
3. 독립성
'Upstage AI Lab 2기' 카테고리의 다른 글
Pytorch Lightning (0) | 2024.04.16 |
---|---|
Upstage AI Lab 2기 [Day078] - [Day080] Computer Vision Basic (0) | 2024.04.03 |
협업을 위한 깃 복습 (0) | 2024.03.21 |
Upstage AI Lab 2기 [Day067] ML Advanced - CH02. 파생 변수 만들기 실습(1) (0) | 2024.03.19 |
Upstage AI Lab 2기 [Day067] ML Advanced - CH02. 파생 변수 생성 ~ CH03. 변수 선택 (0) | 2024.03.18 |