본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day055] Deep Learning - 손실 함수

Upstage AI Lab 2기

2024년 3월 3일 (일) 

온라인강의

 

업스테이지 AI

나머지 공부

 

Chapter 2-6. 모델 학습법 IV : 손실 함수

키워드

손실함수의 종류

손실함수를 고르는 관점 2가지

 

 

손실함수를 고르는 관점 2가지

1. Backpropagation 관점

2. Maximum Likelihood 관점

 


손실함수의 종류

MSE, MAE, Huber loss, Cross Entropy(Binary Cross Entropy)

손실함수를 무엇을 선택하느냐에 따라 학습 결과가 다를 수 밖에 없다.

(학습이 빠르다 ≒ 파라미터 업데이트가 빠르다)

MSE (Mean Squared Error) = L2 loss, Quadratic loss

1. 초반학습이 빠름

2. 이상치에 민감

 

MAE (Mean Absolute Error) = L1 loss

1. 모든 구간에서의 미분값이 동일함

 

Huber loss

L1 loss와 L2 loss의 장점을 결합

최솟값 근처에서는 L2 loss, 나머지 구간에서 L1 loss

Huber δ

= { 1/2(yi - hat{yi})^2  for  | yi - hat{yi} |  ≤ δ

      δ|yi - hat{yi}| - 1/2δ^2

https://en.wikipedia.org/wiki/Huber_loss

 

Cross Entropy

- ∑Q(x)log(P(x))

Q 정답 분포, P 예측 분포

Q(x)의 분포와 P(x)의 분포 간 거리를 계산하는 방법 중 하나

binary이면

-∑ ylog(p)+(1-y)log(1-p)

 

Hinge loss (≒ SVM loss)

경계를 나눌 때, 특히 binary 분류에 사용됨

결계를 기준으로 각 class 별 가장 가까운 샘플까지의 거리(=margin)이 최대가 되도록 하고 싶을 때 사용하는 손실함수

 


보통 MSE 나 CE를 많이 씀.

 


vanishing gradient problem

layer가 많아질 수록 미분값이 굉장히 작아지고 (계속 1보다 작은 값을 곱하니까) parameter update가 느려짐

-> vanishing gradient problem를 없애기 위해 어떤 loss를 선택해야하는가?

 

손실함수를 고르는 관점 2가지

1. Backpropagation 관점

2. Maximum Likelihood 관점

 

1. Backpropagation 관점

MSE가 CE보다 학습이 느림

why?

https://towardsdatascience.com/derivative-of-the-sigmoid-function-536880cf918e

 

역전파 관점에서 sigmoid function의 미분함수가 곱해지면서 학습 속도가 느려짐

이런 관점에서 ReLU를 많이 쓰기도 함 - 미분값이 0 또는 1임

 

2. Maximum Likelihood 관점

(이전 : 모델의 출력값과 정답 사이의 차이를 직접 계산)

θ 에 따라 정해진 모델에서 y가 나올 확률을 비교함

 

손실함수 -log(p(y|fθ(x)))

ynew ~ p(y| fθ(x)) 샘플링으로 해석할 수도 있음

 

Maximum Likelihood는 역전파를 쓸 수 있는 손실함수의 2가지 가정을 충족시킴

univariate Gaussian distribution Bernoulli distribution
-> MSE -> CE
multivariate Gaussian distribution Categorical distribution
-> MSE -> CE

 

요약하자면, 

Maximum Likelihood 관점에서는 출력분포가 Gaussian 같으면 MSE, Bernoulli/Categorical 같으면 CE

 

 

참고자료

https://www.probabilitycourse.com/chapter8/8_2_3_max_likelihood_estimation.php