NVIDIA新举措：Parakeet ASR模型，引领英语语音识别技术突破

NVIDIA NeMo的最新突破：Parakeet ASR模型系列的推出。这些模型代表了自动语音识别（ASR）技术的前沿，主要用于将英语口语转录为文字。NVIDIA推出的四种Parakeet模型，均基于先进的RNN Transducer和Connectionist Temporal Classification技术，参数数量介于0.6亿至1.1亿之间。

这些模型在各类音频环境中均展现了卓越的适应能力。经过64000小时的数据集训练，Parakeet模型在标准数据集上的词错误率（WER）表现超越了以往所有模型。开发者强调，这些模型对于非语音片段，如音乐和静音，具备高度的鲁棒性，并在基准测试中胜过OpenAI的Whisper v3。此外，这些模型还提供了预先训练的控制点，便于用户轻松集成到各种项目中。NVIDIA此次的推出，不仅标志着英语口语识别技术的一个重要里程碑，也为相关领域的研究和应用提供了新的动力。

NVIDIA新举措：Parakeet ASR模型，引领英语语音识别技术突破

数智资讯订阅