小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio,基于上亿小时训练数据实现少样本泛化能力,并在多项基准测试中超越同规模开源模型及闭源模型。该模型通过三重技术创新突破传统语音范式,全套技术方案已开源发布。
OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。
豆包大模型1.5Pro正式发布,技术指标突破GPT-4,特别在知识、推理、编程能力上表现卓越。同时,全新的实时语音模型Doubao-1.5-realtime-voice-pro也亮相,进一步提升多模态交互体验。