DIGIPUNK
去投稿

小米开源端到端语音模型Xiaomi-MiMo-Audio,实现语音领域三重技术突破

小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio,基于上亿小时训练数据实现少样本泛化能力,并在多项基准测试中超越同规模开源模型及闭源模型。该模型通过三重技术创新突破传统语音范式,全套技术方案已开源发布。

2025年09月20日
OpenAI推出gpt-realtime语音模型,开启语音AI代理新阶段

OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。

2025年08月29日
豆包大模型1.5Pro发布,超越GPT-4并推出创新实时语音模型

豆包大模型1.5Pro正式发布,技术指标突破GPT-4,特别在知识、推理、编程能力上表现卓越。同时,全新的实时语音模型Doubao-1.5-realtime-voice-pro也亮相,进一步提升多模态交互体验。

2025年01月23日