OpenAI发布新一代多模态交互模型GPT-Realtime-1.5

核心要点👉

🚀 响应速度优化：232毫秒内启动回复，平均延迟320毫秒
🔍 多模态处理：同步分析音频、视觉信息
🌐 API开放：支持第三方应用集成
🔒 数据安全：端到端加密，数据不持久化
🛡️ 内容过滤：防范有害信息

数智朋克讯，OpenAI近日正式发布了其新一代多模态交互模型GPT-Realtime-1.5，该助手能够同步处理实时音频流与视觉信息，实现低延迟的语音对话与画面理解。通过整合语音、文本及视觉处理能力，模型可对用户语义、语调及摄像头捕捉的物体、文字或环境进行同步分析，从而在交互中提供更具上下文的精准应答。

此次模型升级的核心指标在于响应速度的显著优化。GPT-Realtime-1.5能够在用户语音结束后的232毫秒内启动回复生成，其平均响应延迟被控制在320毫秒左右。这一性能指标使其在实时翻译、语音助手等对流畅度有严苛要求的场景中具备了应用潜力。

为促进生态发展，OpenAI同步向开发者开放了相应的API接口，支持将GPT-Realtime-1.5集成至第三方应用程序。现阶段，该模型的测试权限已面向特定用户群体开放。

在模型部署与数据安全方面，OpenAI强调了端到端加密技术的采用，确保实时处理的音频与视频数据仅用于生成即时响应，而不会被持久化存储或用于后续模型训练。同时，系统层面也集成了内容过滤机制，以防范有害信息的生成。

OpenAI发布新一代多模态交互模型GPT-Realtime-1.5

数智资讯订阅