@InProceedings{pmlr-v187-zaidi23a, title = {重新初始化何时有效?}, author = {Zaidi, Sheheryar and Berariu, Tudor and Kim, Hyunjik and Bornschein, Jorg and Clopath, Claudia and Teh, Yee Whye and Pascanu, Razvan}, booktitle = {“我简直不敢相信它不好!——通过经验证伪理解深度学习” NeurIPS 2022 Workshops 会议论文集}, pages = {12--26}, year = {2023}, editor = {Antorán, Javier and Blaas, Arno and Feng, Fan and Ghalebikesabi, Sahra and Mason, Ian and Pradier, Melanie F. and Rohde, David and Ruiz, Francisco J. R. and Schein, Aaron}, volume = {187}, series = {机器学习研究会议论文集}, month = {03 Dec}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v187/zaidi23a/zaidi23a.pdf}, url = {https://pmlr.com.cn/v187/zaidi23a.html}, abstract = {重新初始化神经网络在训练期间已被观察到可以提高泛化能力。然而,它既未在深度学习实践中得到广泛采用,也鲜少用于最先进的训练协议中。这引发了一个问题:重新初始化何时有效?它是否应该与数据增强、权重衰减和学习率调度等正则化技术一起使用?在这项工作中,我们对标准训练与一系列重新初始化方法进行了广泛的经验比较,以回答这个问题,在各种图像分类基准上训练了超过 15,000 个模型。我们首先确定,在没有任何其他正则化的情况下,这些方法始终有利于泛化。然而,当与其他精心调整的正则化技术一起部署时,重新初始化方法对泛化几乎没有或没有额外的益处,尽管最佳泛化性能对学习率和权重衰减超参数的选择变得不太敏感。为了研究重新初始化方法对噪声数据的影响,我们还考虑了在标签噪声下的学习。令人惊讶的是,在这种情况下,重新初始化显著优于标准训练,即使存在其他精心调整的正则化技术。} }
Endnote
%0 会议论文 %T 重新初始化何时有效? %A Sheheryar Zaidi %A Tudor Berariu %A Hyunjik Kim %A Jorg Bornschein %A Claudia Clopath %A Yee Whye Teh %A Razvan Pascanu %B “我简直不敢相信它不好!——通过经验证伪理解深度学习” NeurIPS 2022 Workshops 会议论文集 %C 机器学习研究会议论文集 %D 2023 %E Javier Antorán %E Arno Blaas %E Fan Feng %E Sahra Ghalebikesabi %E Ian Mason %E Melanie F. Pradier %E David Rohde %E Francisco J. R. Ruiz %E Aaron Schein %F pmlr-v187-zaidi23a %I PMLR %P 12--26 %U https://pmlr.com.cn/v187/zaidi23a.html %V 187 %X 重新初始化神经网络在训练期间已被观察到可以提高泛化能力。然而,它既未在深度学习实践中得到广泛采用,也鲜少用于最先进的训练协议中。这引发了一个问题:重新初始化何时有效?它是否应该与数据增强、权重衰减和学习率调度等正则化技术一起使用?在这项工作中,我们对标准训练与一系列重新初始化方法进行了广泛的经验比较,以回答这个问题,在各种图像分类基准上训练了超过 15,000 个模型。我们首先确定,在没有任何其他正则化的情况下,这些方法始终有利于泛化。然而,当与其他精心调整的正则化技术一起部署时,重新初始化方法对泛化几乎没有或没有额外的益处,尽管最佳泛化性能对学习率和权重衰减超参数的选择变得不太敏感。为了研究重新初始化方法对噪声数据的影响,我们还考虑了在标签噪声下的学习。令人惊讶的是,在这种情况下,重新初始化显著优于标准训练,即使存在其他精心调整的正则化技术。