[编辑]
自动语音识别中的连续软伪标签
“我简直不敢相信它还不够好!- 通过经验证伪理解深度学习”研讨会论文集 (Proceedings on "I Can't Believe It's Not Better! - Understanding Deep Learning Through Empirical Falsification" at NeurIPS 2022 Workshops),PMLR 187:66-84,2023。
摘要
连续伪标签 (PL) 算法,例如 slimIPL,最近作为语音识别中半监督学习的强大策略出现。与早期在训练模型和使用其生成伪标签 (PL) 之间交替的策略相比,这里的 PL 在训练过程中以端到端的方式生成,从而提高了训练速度和最终模型的准确性。PL 与教师-学生模型(如知识蒸馏)具有共同的主题,即教师模型生成需要被训练的学生模型模仿的目标。然而,有趣的是,PL 策略通常使用硬标签,而知识蒸馏使用标签分布作为模仿的目标。受知识蒸馏的启发,我们预计指定整个序列分布(即软标签)作为无标签数据的目标,而不是单个最佳通过的伪标签转录(硬标签),应该提高 PL 的性能和收敛性。令人惊讶且意想不到的是,我们发现软标签目标会导致训练发散,模型坍缩为每帧的退化 token 分布。我们假设这是因为硬标签上的训练损失施加了序列级别的 consistency,从而防止模型坍缩到退化解。在本文中,我们展示了几个支持该假设的实验,并尝试了几种正则化方法,这些方法可以减轻在使用软标签时发生的退化坍缩。这些方法可以将软标签的准确性提高到接近硬标签的水平,虽然它们尚未能够超越硬标签,但它们为进一步改进提供了一个有用的框架。