Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. 使用BN正则化之后的网络可以拥有更高的learning rate, 可以减少drop out的限制,或者不使用drop out。而且由于正则化之后相应的lr的提高,可以极大的减少训练的时间。