심층 신경망 훈련하기 - 학습 속도를 높이는 방법

심층 신경망 훈련하기 - 학습 속도를 높이는 방법

2020. 12. 29. 14:50ㆍML&DL

본 글은 핸즈온 머신러닝 Part2-11장(심층 신경망 훈련하기)를 공부한 후 정리한 내용입니다.

Gradient 소실 or gradient 폭주 문제에 직면.
- 심층 신경망의 아래쪽으로 갈수록 gradient가 점점 더 작아지거나 커지는 현상
- 하위층을 학습하기 매우 어렵게 만듦.
대규모 신경망을 위한 학습 데이터가 충분하지 않거나 레이블을 만드는 작업에 비용이 많이 들 수 있음.
학습이 극단적으로 느려질 수 있음.
수백만 개의 파라미터를 가진 모델은 학습 할 때 과대적합 될 위험이 큼.
- 특히, 학습 샘플이 충분하지 않거나 잡음이 많은 경우

이 중 학습 속도를 높이는 방법을 알아보겠습니다.

학습 속도를 높이는 방법에는 연결 가중치에 좋은 초기화 전략을 사용하거나, 좋은 활성화 함수 사용, 배치 정규화 사용, 사전학습된 네트워크 일부를 재사용하는 방법들이 있었습니다. 이번에는 더 빠른 Optimizer(최적화기)를 사용하여 학습 속도를 높이는 방법을 알아보겠습니다.

optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9)

optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True)

optimizer = keras.optimizers.Adagrad(lr=0.001)

optimizer = keras.optimizers.RMSprop(lr=0.001, rho=0.9)

Momentum 최적화와 RMSprop을 합친 방법으로 지수 감소 평균을 따르고 RMSprop처럼 지난 gradient 제곱의 지수 감소된 평균을 따름.

optimizer = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999)

optimizer = keras.optimizers.Adamax(lr=0.001, beta_1=0.9, beta_2=0.999)

optimizer = keras.optimizers.Nadam(lr=0.001, beta_1=0.9, beta_2=0.999)

학습률을 너무 크게 정하면 학습이 발산할 수 있고 너무 작게 설정하면 최적점에 수렴하지만 시간이 너무 오래 걸리기 때문에 큰 학습률로 시작하고 학습 속도가 느려질 때 학습률을 감소시키는 전략

거듭제곱 기반 스케줄링
lr = lr0 / (1 + steps / s)**c
지수 기반 스케줄링
지수 기반 스케줄링
구간별 고정 스케줄링
- 일정 횟수의 에포크 동안 일정한 학습률을 사용하고 그 다음 또 다른 횟수의 에포크 동안 작은 학습률을 사용하는 전략.
성능 기반 스케줄링
- 매 스텝마다 검증 오차를 측정하고 오차가 줄어들지 않으면 학습률을 감소시키는 전략.
1 사이클 스케줄링
- 학습의 절반 동안 초기 학습률을 선형적으로 증가시키고 그 다음 나머지 절반 동안 선형적으로 학습률을 처음 학습률로 다시 줄인 후 마지막 몇 번의 에포크는 학습률을 소수점 몇 째 자리까지 선형적으로 줄이는 전략.

728x90

[ML] 군집화란 무엇인가, 어떻게 작동하는지 알아보자. (0)	2021.02.01
[ML] 직관적인 모델 의사결정나무와 강한 학습기 앙상블 (0)	2021.01.31
심층 신경망 훈련하기 - 레이블 된 데이터가 적을 때 복잡한 문제를 다루는 데 도움이 되는 전이 학습과 비지도 사전 훈련 하는 방법 (0)	2020.12.29
심층 신경망 훈련하기 - Gradient 소실과 폭주 문제 해결 방법 (0)	2020.12.29
[DL] 06. 새로운 데이터를 생성하는 법, GAN? (0)	2020.12.08

:: Grit ::