自动语音识别中的连续软伪标签

塔季亚娜·利霍马年科 (Tatiana Likhomanenko),罗南·科洛贝尔 (Ronan Collobert),纳夫迪普·贾特利 (Navdeep Jaitly),萨米·本吉奥 (Samy Bengio)
“我简直不敢相信它还不够好!- 通过经验证伪理解深度学习”研讨会论文集 (Proceedings on "I Can't Believe It's Not Better! - Understanding Deep Learning Through Empirical Falsification" at NeurIPS 2022 Workshops),PMLR 187:66-84,2023。

摘要

连续伪标签 (PL) 算法,例如 slimIPL,最近作为语音识别中半监督学习的强大策略出现。与早期在训练模型和使用其生成伪标签 (PL) 之间交替的策略相比,这里的 PL 在训练过程中以端到端的方式生成,从而提高了训练速度和最终模型的准确性。PL 与教师-学生模型(如知识蒸馏)具有共同的主题,即教师模型生成需要被训练的学生模型模仿的目标。然而,有趣的是,PL 策略通常使用硬标签,而知识蒸馏使用标签分布作为模仿的目标。受知识蒸馏的启发,我们预计指定整个序列分布(即软标签)作为无标签数据的目标,而不是单个最佳通过的伪标签转录(硬标签),应该提高 PL 的性能和收敛性。令人惊讶且意想不到的是,我们发现软标签目标会导致训练发散,模型坍缩为每帧的退化 token 分布。我们假设这是因为硬标签上的训练损失施加了序列级别的 consistency,从而防止模型坍缩到退化解。在本文中,我们展示了几个支持该假设的实验,并尝试了几种正则化方法,这些方法可以减轻在使用软标签时发生的退化坍缩。这些方法可以将软标签的准确性提高到接近硬标签的水平,虽然它们尚未能够超越硬标签,但它们为进一步改进提供了一个有用的框架。

引用本文


BibTeX
@InProceedings{pmlr-v187-likhomanenko23a, title = {自动语音识别中的连续软伪标签 }, author = {Likhomanenko, Tatiana and Collobert, Ronan and Jaitly, Navdeep and Bengio, Samy}, booktitle = {“我简直不敢相信它还不够好!- 通过经验证伪理解深度学习”研讨会论文集 (Proceedings on "I Can't Believe It's Not Better! - Understanding Deep Learning Through Empirical Falsification" at NeurIPS 2022 Workshops)}, pages = {66--84}, year = {2023}, editor = {Antorán, Javier and Blaas, Arno and Feng, Fan and Ghalebikesabi, Sahra and Mason, Ian and Pradier, Melanie F. and Rohde, David and Ruiz, Francisco J. R. and Schein, Aaron}, volume = {187}, series = {机器学习研究论文集 (Proceedings of Machine Learning Research)}, month = {03 Dec}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v187/likhomanenko23a/likhomanenko23a.pdf}, url = {https://pmlr.com.cn/v187/likhomanenko23a.html}, abstract = {连续伪标签 (PL) 算法,例如 slimIPL,最近作为语音识别中半监督学习的强大策略出现。与早期在训练模型和使用其生成伪标签 (PL) 之间交替的策略相比,这里的 PL 在训练过程中以端到端的方式生成,从而提高了训练速度和最终模型的准确性。PL 与教师-学生模型(如知识蒸馏)具有共同的主题,即教师模型生成需要被训练的学生模型模仿的目标。然而,有趣的是,PL 策略通常使用硬标签,而知识蒸馏使用标签分布作为模仿的目标。受知识蒸馏的启发,我们预计指定整个序列分布(即软标签)作为无标签数据的目标,而不是单个最佳通过的伪标签转录(硬标签),应该提高 PL 的性能和收敛性。令人惊讶且意想不到的是,我们发现软标签目标会导致训练发散,模型坍缩为每帧的退化 token 分布。我们假设这是因为硬标签上的训练损失施加了序列级别的 consistency,从而防止模型坍缩到退化解。在本文中,我们展示了几个支持该假设的实验,并尝试了几种正则化方法,这些方法可以减轻在使用软标签时发生的退化坍缩。这些方法可以将软标签的准确性提高到接近硬标签的水平,虽然它们尚未能够超越硬标签,但它们为进一步改进提供了一个有用的框架。} }
Endnote
%0 会议论文 %T 自动语音识别中的连续软伪标签 %A Tatiana Likhomanenko %A Ronan Collobert %A Navdeep Jaitly %A Samy Bengio %B “我简直不敢相信它还不够好!- 通过经验证伪理解深度学习”研讨会论文集 (Proceedings on "I Can't Believe It's Not Better! - Understanding Deep Learning Through Empirical Falsification" at NeurIPS 2022 Workshops) %C 机器学习研究论文集 (Proceedings of Machine Learning Research) %D 2023 %E Javier Antorán %E Arno Blaas %E Fan Feng %E Sahra Ghalebikesabi %E Ian Mason %E Melanie F. Pradier %E David Rohde %E Francisco J. R. Ruiz %E Aaron Schein %F pmlr-v187-likhomanenko23a %I PMLR %P 66--84 %U https://pmlr.com.cn/v187/likhomanenko23a.html %V 187 %X 连续伪标签 (PL) 算法,例如 slimIPL,最近作为语音识别中半监督学习的强大策略出现。与早期在训练模型和使用其生成伪标签 (PL) 之间交替的策略相比,这里的 PL 在训练过程中以端到端的方式生成,从而提高了训练速度和最终模型的准确性。PL 与教师-学生模型(如知识蒸馏)具有共同的主题,即教师模型生成需要被训练的学生模型模仿的目标。然而,有趣的是,PL 策略通常使用硬标签,而知识蒸馏使用标签分布作为模仿的目标。受知识蒸馏的启发,我们预计指定整个序列分布(即软标签)作为无标签数据的目标,而不是单个最佳通过的伪标签转录(硬标签),应该提高 PL 的性能和收敛性。令人惊讶且意想不到的是,我们发现软标签目标会导致训练发散,模型坍缩为每帧的退化 token 分布。我们假设这是因为硬标签上的训练损失施加了序列级别的 consistency,从而防止模型坍缩到退化解。在本文中,我们展示了几个支持该假设的实验,并尝试了几种正则化方法,这些方法可以减轻在使用软标签时发生的退化坍缩。这些方法可以将软标签的准确性提高到接近硬标签的水平,虽然它们尚未能够超越硬标签,但它们为进一步改进提供了一个有用的框架。
APA
Likhomanenko, T., Collobert, R., Jaitly, N. & Bengio, S. (2023). 自动语音识别中的连续软伪标签。“我简直不敢相信它还不够好!- 通过经验证伪理解深度学习”研讨会论文集 (Proceedings on "I Can't Believe It's Not Better! - Understanding Deep Learning Through Empirical Falsification" at NeurIPS 2022 Workshops),载于机器学习研究论文集 (Proceedings of Machine Learning Research) 187:66-84。可从 https://pmlr.com.cn/v187/likhomanenko23a.html 获取。

相关材料