OpenAI正式推出GPT-Realtime-1.5多模态模型,支持实时音频和视觉处理,实现低延迟交互。该模型显著优化响应速度,开放API接口,并采用端到端加密和内容过滤确保安全。
Lyria 3是专为音乐生成设计的AI系统,能创作高品质乐曲、歌词和人声,计划通过API开放。Gemini 3.1 Pro是谷歌最新旗舰模型,具备多模态推理能力,在复杂任务上表现卓越,安全性能优越。
Seedance2.0模型允许用户提供多达12份参考素材生成视频,处理速度提升十倍并减少无效生成。其技术如首尾帧控制和原生音视频同步,重塑内容生产流程并压缩制作成本。
北京生数科技发布Vidu Q2参考生Pro视频生成模型,引入“万物可参考”理念,允许通过输入参考素材实现精细化控制。该模型覆盖多个维度,解决AI视频生成痛点,并集成后期编辑功能,支持专业内容生产。
月之暗面推出Kimi K2.5开源模型,在智能体评测中表现顶尖,采用原生多模态架构。模型在编程领域有显著提升,支持视觉编码和Agent集群机制。
硬件制造商Plaud在国际消费电子展前夕发布NotePin S,一款别针式AI录音设备,具备实体按键和多种佩戴配件。设备延续前代配置,提供64GB存储、20小时续航和免费转录服务,并推出AI桌面应用支持多模态输入。
xAI的Grok应用1.3.28版本更新引入了Grok Imagine功能,实现静态图像向动态视频的转化并缩短生成时间。Grok 4系列提升了事实准确性和企业级应用能力,同时新增语音模式扩展功能矩阵。
火山引擎数据显示豆包大模型日均Token处理量达50万亿,半年增长200%。豆包App日活用户突破1亿,成为国内首个AI原生应用达此成就。
快看漫画与MiniMax稀宇科技合作推出业界首款AI陪伴互动漫画,通过生成式AI技术重构传统漫画体验。MiniMax的全模态模型支持角色动态化,公司近期通过港交所聆讯,并与多个IP方展开AI+IP合作。