Upstage AI Lab 2기 [Day055] Deep Learning

Upstage AI Lab 2기

2024년 3월 3일 (일)

온라인강의

업스테이지 AI

나머지 공부

Chapter 2-6. 모델 학습법 IV : 손실 함수

키워드

손실함수의 종류

손실함수를 고르는 관점 2가지

1. Backpropagation 관점

2. Maximum Likelihood 관점

손실함수의 종류

MSE, MAE, Huber loss, Cross Entropy(Binary Cross Entropy)

손실함수를 무엇을 선택하느냐에 따라 학습 결과가 다를 수 밖에 없다.

(학습이 빠르다 ≒ 파라미터 업데이트가 빠르다)

MSE (Mean Squared Error) = L2 loss, Quadratic loss

1. 초반학습이 빠름

2. 이상치에 민감

MAE (Mean Absolute Error) = L1 loss

1. 모든 구간에서의 미분값이 동일함

Huber loss

L1 loss와 L2 loss의 장점을 결합

최솟값 근처에서는 L2 loss, 나머지 구간에서 L1 loss

Huber δ

= { 1/2(yi - hat{yi})^2 for | yi - hat{yi} | ≤ δ

δ|yi - hat{yi}| - 1/2δ^2

https://en.wikipedia.org/wiki/Huber_loss

Cross Entropy

- ∑Q(x)log(P(x))

Q 정답 분포, P 예측 분포

Q(x)의 분포와 P(x)의 분포 간 거리를 계산하는 방법 중 하나

binary이면

-∑ ylog(p)+(1-y)log(1-p)

Hinge loss (≒ SVM loss)

경계를 나눌 때, 특히 binary 분류에 사용됨

결계를 기준으로 각 class 별 가장 가까운 샘플까지의 거리(=margin)이 최대가 되도록 하고 싶을 때 사용하는 손실함수

보통 MSE 나 CE를 많이 씀.

vanishing gradient problem

layer가 많아질 수록 미분값이 굉장히 작아지고 (계속 1보다 작은 값을 곱하니까) parameter update가 느려짐

-> vanishing gradient problem를 없애기 위해 어떤 loss를 선택해야하는가?

손실함수를 고르는 관점 2가지

1. Backpropagation 관점

2. Maximum Likelihood 관점

1. Backpropagation 관점

MSE가 CE보다 학습이 느림

why?

https://towardsdatascience.com/derivative-of-the-sigmoid-function-536880cf918e

역전파 관점에서 sigmoid function의 미분함수가 곱해지면서 학습 속도가 느려짐

이런 관점에서 ReLU를 많이 쓰기도 함 - 미분값이 0 또는 1임

2. Maximum Likelihood 관점

(이전 : 모델의 출력값과 정답 사이의 차이를 직접 계산)

θ 에 따라 정해진 모델에서 y가 나올 확률을 비교함

손실함수 -log(p(y|f_θ(x)))

y_new ~ p(y| fθ(x)) 샘플링으로 해석할 수도 있음

Maximum Likelihood는 역전파를 쓸 수 있는 손실함수의 2가지 가정을 충족시킴

univariate	Gaussian distribution	Bernoulli distribution
univariate	-> MSE	-> CE
multivariate	Gaussian distribution	Categorical distribution
multivariate	-> MSE	-> CE

요약하자면,

Maximum Likelihood 관점에서는 출력분포가 Gaussian 같으면 MSE, Bernoulli/Categorical 같으면 CE

참고자료

https://www.probabilitycourse.com/chapter8/8_2_3_max_likelihood_estimation.php

'Upstage AI Lab 2기' 카테고리의 다른 글

Upstage AI Lab 2기 [Day057] CH.4 - CNN, RNN, From AlexNet to ChatGPT (2)	2024.03.05
Upstage AI Lab 2기 [Day055] Deep Learning - 성능고도화 (0)	2024.03.04
Upstage AI Lab 2기 [Day055] Deep Learning (1)	2024.02.29
Upstage AI Lab 2기 [Day043] ML 프로젝트 (day1-2) (2) 업무분담 (0)	2024.02.13
Upstage AI Lab 2기 [Day043] ML 프로젝트 (day1) (0)	2024.02.13

연역적 인간의 귀납적 세상에서 살아남기

Upstage AI Lab 2기 [Day055] Deep Learning - 손실 함수

손실함수의 종류

MSE (Mean Squared Error) = L2 loss, Quadratic loss

MAE (Mean Absolute Error) = L1 loss

Huber loss

Cross Entropy

Hinge loss (≒ SVM loss)

'Upstage AI Lab 2기' 카테고리의 다른 글

티스토리툴바

Upstage AI Lab 2기 [Day055] Deep Learning - 손실 함수

손실함수의 종류

MSE (Mean Squared Error) = L2 loss, Quadratic loss

MAE (Mean Absolute Error) = L1 loss

Huber loss

Cross Entropy

Hinge loss (≒ SVM loss)

'Upstage AI Lab 2기' 카테고리의 다른 글

'Upstage AI Lab 2기' Related Articles

티스토리툴바