首页 > 科技周边 > 人工智能

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

时间：2025-02-07 22:37:43 229浏览收藏

一分耕耘，一分收获！既然打开了这篇文章《ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA》，就坚持看下去吧！文中内容包含等等知识点...希望你能在阅读本文后，能真真实实学到知识或者帮你解决心中的疑惑，也欢迎大佬或者新人朋友们多留言评论，多给建议！谢谢！

小米新一代Kaldi团队在语音识别领域取得重大突破！其论文《CR-CTC: Consistency Regularization on CTC for Improved Speech Recognition》已被ICLR 2025接收。该论文提出了一种名为CR-CTC的新方法，显著提升了纯CTC语音识别模型的性能，使其与更复杂的Transducer和CTC/AED模型不相上下，甚至在多个数据集上取得了新的SOTA结果。

这项研究由Kaldi之父Daniel Povey领衔，基于新一代Kaldi开源项目（https://github.com/k2-fsa）进行。该项目包含k2、Lhotse、Icefall和Sherpa四个子项目，为开发者提供便捷的语音模型训练和部署工具。

论文链接：https://arxiv.org/pdf/2410.05101 论文代码：https://github.com/k2-fsa/icefall/pull/1766（已合并进Icefall框架）

CR-CTC的核心思想是通过一致性正则化来提升CTC模型的性能。 它利用SpecAugment数据增强技术生成两个不同的输入视图，并分别输入到共享参数的编码器中。通过最小化两个CTC概率分布之间的KL散度，CR-CTC有效地约束了模型输出的一致性，从而提高了模型的泛化能力。

论文深入探讨了CR-CTC的三个关键方面：自蒸馏、掩码预测和峰值抑制。实验结果表明，CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等数据集上均取得了显著的性能提升，超越了标准CTC，并与CTC/AED和Transducer模型的效果相当，甚至在与后者联合训练后取得了更好的结果。

这项研究为语音识别技术的发展提供了新的思路，也展现了新一代Kaldi项目在推动开源语音技术进步方面的巨大潜力。 CR-CTC的简洁性和有效性使其具有广泛的应用前景。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

语音识别工程小米集团 CR-CTC