2015 DNN을 훈련하는 것은 각 layer의 입력 분포가 이전 층의 매개변수가 변경되면서 훈련 중에 변화한다는 사실로 인해 복잡해진다. 이로인해 학습 속도가 느려져 낮은 학습률과 섬세한 매게변수의 초기화가 필요하며, saturated non-linearlity를 가진 모델을 훈련하기가 특히 어려워 진다. 우리는 이 현상을 inernal covariate shift라고 하며, 이 문제를 input layer를 정규화 하여 해결한다. 우리의 방법은 정규화를 모델 아키텍처의 일부로 만들고 각 train mini batch에 대해 정규화를 수행함으로써 강점을 발휘한다. 배치 정규화를 사용하면 훨씬 더 높은 학습류을 사용 할 수 있고, 초기화에 대해 조금 덜 섬세할 수 있으며, 경우에 따라서는 Dropout이..