DIGIPUNK
去投稿
发表于:2024年01月10日

NVIDIA新举措:Parakeet ASR模型,引领英语语音识别技术突破

数智朋克

NVIDIA NeMo的最新突破:Parakeet ASR模型系列的推出。这些模型代表了自动语音识别(ASR)技术的前沿,主要用于将英语口语转录为文字。NVIDIA推出的四种Parakeet模型,均基于先进的RNN Transducer和Connectionist Temporal Classification技术,参数数量介于0.6亿至1.1亿之间。

这些模型在各类音频环境中均展现了卓越的适应能力。经过64000小时的数据集训练,Parakeet模型在标准数据集上的词错误率(WER)表现超越了以往所有模型。开发者强调,这些模型对于非语音片段,如音乐和静音,具备高度的鲁棒性,并在基准测试中胜过OpenAI的Whisper v3。此外,这些模型还提供了预先训练的控制点,便于用户轻松集成到各种项目中。NVIDIA此次的推出,不仅标志着英语口语识别技术的一个重要里程碑,也为相关领域的研究和应用提供了新的动力。

本文链接: https://www.shuzhipunk.com/articles/H4eaAzG6cVv
转载请注明文章出处

文章所属标签
Parakeet ASR
NVIDIA
Parakeet模型
Whisper v3
语音识别