본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day069] ML Advanced - CH04 ML 기본모델 ~ CH05 ML 심화모델

Upstage AI Lab 2기
2024년 3월 19일 (목) Day_069

 

오늘의 todo

  • [ ] 파생변수 선택 (실습) 마무리
  • [ ] 파생변수 선택 (이론) 정리
  • [o] 머신러닝 기본 모델 (이론)
  • [o] 머신러닝 심화 모델 (이론)

 

CH04. ML 기본모델(이론) - Linear regression, KNN, Decision Tree, Random Forest

선택하는 모델에 따라 전처리가 달라질 수도 있고, 학습 및 평가의 결과에 따라 모델이 달라질 수 있음.

이런 것들을 고려하여 모델을 선택하는 것이 중요

 

목적 - 분류 or 회귀

선형모델 / 비선형모델(트리모델, KNN 등)

 


선형회귀 Linear regression

해석력

 - 금융 등 해석력이 중요한 분야들이 있음

 - 선형회귀를 이용해 분석하는 모델들이 꾸준히 나오고 있음

 

장점 : 학습 및 예측 속도가 빠름, 모델의 해석이 명확함

단점 : 현실에서 선형관계를 갖는 X와 y가 많지 않음. 이상치에 민감

 

선형회귀의 가정 : 1. 선형성 2. 잔차의 정규성과 등분산성 3. 독립성

(회귀 분석의 신뢰성을 높이는데 필요한 가정들)

 

1. 선형성

주로 시각화로 확인

처리 방법 : 변수 제거 or 선형성을 갖도록 변환 (예시 - 시각화해보니 y=x^2 같다 -> x에 대해 power transformation)

 

2. 잔차의 정규성과 등분산성

QQ plot으로 확인 가능

정규성 : 잔차들의 평균이 0인 정규분포를 구성

등분산성 : 잔차들의 분산 일정

잔차들의 분산이 일정한 경우 잔차들의 분산이 일정하지 않은 경우

 

 

 

 

 

3. 독립성