DIGIPUNK
去投稿
发表于:7 hours ago

Mistral推出开放语音模型Voxtral,挑战封闭式企业系统

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 开放语音系统:首个可部署生产环境的开放语音智能模型
  • 💰 成本优势:商业集成价低至$0.001/分钟,成本减半
  • 🌐 多语言支持:覆盖8种语言全球应用
  • ⚙️ 双版本架构:240亿参数生产版+30亿参数边缘版
  • 📊 性能突破:转录性能以半价超越OpenAI Whisper

数智朋克讯,法国人工智能初创公司Mistral近日推出其首个语音理解模型系列Voxtral,标志着该公司正式进军音频处理领域。该开放模型旨在挑战封闭式企业系统的市场主导地位,为开发者提供高精度且经济高效的替代方案。Voxtral被定位为首个可部署于真实生产环境的开放语音智能系统,终结了开发者在廉价但低准确度开源工具与功能强大却昂贵封闭方案之间的两难选择。

针对企业需求,Voxtral的定价策略极具竞争力,据称成本不到同类解决方案的一半。技术层面,该模型基于LLM主干平台Mistral Small 3.1构建,支持长达30分钟的音频转录和40分钟的语义理解能力。用户可直接对音频内容提问、生成结构化摘要,或将语音命令实时转换为API调用等操作。多语言兼容性覆盖英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语及意大利语,确保全球应用场景的灵活性。

Mistral提供了两个核心模型版本:Voxtral Small拥有240亿参数,专为生产规模部署设计,对标ElevenLabs Scribe、GPT-4o-mini和Gemini 2.5 Flash等竞品;Voxtral Mini则采用30亿参数架构,适用于本地及边缘计算环境。此外,精简版Voxtral Mini Transcribe针对纯转录用例优化,承诺以低于半价超越OpenAI Whisper的性能表现

开发者可通过Hugging Face平台免费下载API或在Mistral的聊天机器人Le Chat中测试模型功能。商业集成起价为每分钟0.001美元,大幅降低企业采用门槛。此次发布紧随Mistral上月推出的Magistral推理模型系列,后者专注于分步问题解决以提升系统可靠性,凸显公司持续强化AI基础设施的战略布局。

本文链接: https://www.shuzhipunk.com/articles/2Dwtq0Ytqac
转载请注明文章出处

文章所属标签
语音理解模型
开源AI
音频处理