来自

OpenAI发布新一代多模态交互模型GPT-Realtime-1.5

OpenAI正式推出GPT-Realtime-1.5多模态模型，支持实时音频和视觉处理，实现低延迟交互。该模型显著优化响应速度，开放API接口，并采用端到端加密和内容过滤确保安全。

2026年02月25日

Lyria 3是专为音乐生成设计的AI系统，能创作高品质乐曲、歌词和人声，计划通过API开放。Gemini 3.1 Pro是谷歌最新旗舰模型，具备多模态推理能力，在复杂任务上表现卓越，安全性能优越。

2026年02月25日

Seedance2.0模型允许用户提供多达12份参考素材生成视频，处理速度提升十倍并减少无效生成。其技术如首尾帧控制和原生音视频同步，重塑内容生产流程并压缩制作成本。

2026年02月10日

北京生数科技发布Vidu Q2参考生Pro视频生成模型，引入“万物可参考”理念，允许通过输入参考素材实现精细化控制。该模型覆盖多个维度，解决AI视频生成痛点，并集成后期编辑功能，支持专业内容生产。

2026年01月29日

月之暗面推出Kimi K2.5开源模型，在智能体评测中表现顶尖，采用原生多模态架构。模型在编程领域有显著提升，支持视觉编码和Agent集群机制。

2026年01月28日

硬件制造商Plaud在国际消费电子展前夕发布NotePin S，一款别针式AI录音设备，具备实体按键和多种佩戴配件。设备延续前代配置，提供64GB存储、20小时续航和免费转录服务，并推出AI桌面应用支持多模态输入。

2026年01月06日

xAI的Grok应用1.3.28版本更新引入了Grok Imagine功能，实现静态图像向动态视频的转化并缩短生成时间。Grok 4系列提升了事实准确性和企业级应用能力，同时新增语音模式扩展功能矩阵。

2026年01月06日

火山引擎数据显示豆包大模型日均Token处理量达50万亿，半年增长200%。豆包App日活用户突破1亿，成为国内首个AI原生应用达此成就。

2025年12月29日

快看漫画与MiniMax稀宇科技合作推出业界首款AI陪伴互动漫画，通过生成式AI技术重构传统漫画体验。MiniMax的全模态模型支持角色动态化，公司近期通过港交所聆讯，并与多个IP方展开AI+IP合作。

2025年12月29日

字节跳动推出Seed1.8模型，标志着AI技术布局进入新阶段。该模型集成多模态能力，能直接执行任务并响应用户需求转向操作执行。

2025年12月19日