초록 읽기/Machine Learning & Statistics

[9] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Turtle0105 2023. 8. 29. 15:10

2015

DNN을 훈련하는 것은 각 layer의 입력 분포가 이전 층의 매개변수가 변경되면서 훈련 중에 변화한다는 사실로 인해 복잡해진다. 이로인해 학습 속도가 느려져 낮은 학습률과 섬세한 매게변수의 초기화가 필요하며, saturated non-linearlity를 가진 모델을 훈련하기가 특히 어려워 진다. 우리는 이 현상을 inernal covariate shift라고 하며, 이 문제를 input layer를 정규화 하여 해결한다. 우리의 방법은 정규화를 모델 아키텍처의 일부로 만들고 각 train mini batch에 대해 정규화를 수행함으로써 강점을 발휘한다. 배치 정규화를 사용하면 훨씬 더 높은 학습류을 사용 할 수 있고, 초기화에 대해 조금 덜 섬세할 수 있으며, 경우에 따라서는 Dropout이 필요하지 않을 수 있다. 최첨단 이미지 분류모델에 적용한 결과, 원래 모델을 큰 폭으로 능가한다. 배치 정규화 네크워크의 앙상블을 사용하여 ImageNet분류에서 최고의 결과를 능가하며, 4.82%의 상위 5개의 테스트 오류를 달성하여 인간보다 정확한 결과를 낸다.

 

Comments

피인용수가 4만회가 넘는다.

 

Original paper

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43442.pdf