OpenAI推出gpt-realtime语音模型，开启语音AI代理新阶段

核心要点👉

🚀 端到端架构显著降低延迟
🎙️ 新增两种语音选项并优化语音质量
🔄 支持无缝切换语言和识别多语种数字
💻 Realtime API开放并降价20%
🔒 强化安全机制支持欧盟数据驻留

数智朋克讯，OpenAI正式推出gpt-realtime语音模型，标志着语音AI代理进入新阶段。这款端到端架构模型直接处理音频流，显著减少响应时间，避免传统多模型链式处理的延迟问题。其多模态能力整合图像输入，允许用户结合视觉内容进行交互，例如询问截图中的文本或描述所见场景，从而提升对话的上下文相关性。

音频输出质量实现重大跃升，模型高度模拟人类语调、情感和语速变化，新增Cedar与Marin两种语音选项，同时优化现有八种声音的表现。开发者通过精细指令如“快速专业地说话”或“带法语口音表达同理心”，能定制化语音输出风格，确保自然流畅的对话体验。

智能理解方面，gpt-realtime捕捉非语言线索如笑声，支持句中无缝切换语言，并精准识别多语种数字序列如电话号码。指令遵循能力增强，模型严格响应系统提示，例如逐字朗读免责声明或重复字母数字组合；函数调用优化则提升工具调用的准确性和时机把握，支持异步操作以维持会话连贯性。

配套的Realtime API现已全面开放，集成远程MCP服务器支持简化工具集成，开发者无需手动配置即可扩展代理功能。新增SIP协议兼容性，实现与公共电话网络和PBX系统的无缝连接；可复用提示功能允许跨会话保存开发消息和工具设置，加速部署流程。价格下调20%，音频输入令牌成本降至每百万32美元，输出为64美元，并引入智能令牌管理控制长期会话开销。

应用场景覆盖客服支持、教育培训、金融服务及医疗咨询等领域，模型通过真实世界任务训练，如Zillow案例中处理复杂房产查询，帮助用户自然探讨购房选项。安全机制包括主动内容分类器和预设语音，防止滥用并确保隐私合规，支持欧盟数据驻留要求。

OpenAI推出gpt-realtime语音模型，开启语音AI代理新阶段

数智资讯订阅