DIGIPUNK
去投稿

快手Kling AI 2.6版本发布,推动多模态生成技术进入新阶段

快手Kling AI 2.6版本正式亮相,首次集成原生音频合成能力,实现文本、视频与音频同步输出闭环。技术架构优化降低成本,性能显著提升,商业化部署覆盖影视制作和广告创意领域。

2025年12月04日
清华大学与字节跳动Seed联合推出OmniVerifier,AI首次具备自我审查视觉输出能力并在基准测试中超越GPT-4o

清华大学与字节跳动Seed联合推出生成式通用验证器OmniVerifier,首次赋予AI自我审查视觉输出的能力,在ViVerBench基准测试中超越GPT-4o。该系统通过三大能力组件实现视觉验证性能提升8.3%,效率较并行方式提高53%,并已扩展至医疗影像诊断、自动驾驶等关键领域。

2025年11月25日
谷歌推出Nano Banana Pro文生图模型升级版,集成多模态与视频生成技术

谷歌发布Nano Banana Pro文生图模型升级版本,无缝整合Gemini 3 Pro多模态能力和Veo 3视频技术,实现复杂场景图像生成与跨语言文本渲染。新模型覆盖多层级用户生态,支持第三方工具集成,并通过SynthID水印技术强化安全验证。

2025年11月21日
谷歌正式推出Gemini 3人工智能模型

谷歌发布Gemini 3人工智能模型,官方称其为迄今最智能模型和世界最佳多模态理解系统,首日即整合至核心产品。该模型在多项基准测试中刷新纪录,并推出Antigravity开发平台重构人机协作范式。

2025年11月19日
蚂蚁集团推出全模态通用AI助手“灵光”,30秒生成可交互应用

蚂蚁集团正式发布全模态通用AI助手“灵光”,实现自然语言30秒生成可交互应用的技术突破,同步登陆安卓与iOS双平台。该产品通过“灵光对话”重构人机交互范式,并具备“闪应用”模块降低开发门槛,以及“灵光开眼”实现物理世界实时解析。

2025年11月19日
谷歌Gemini 3.0大模型即将发布,多模态与代码生成能力获突破

谷歌新一代AI大模型Gemini 3.0在代码生成和多模态创作领域实现显著突破,引发业界广泛关注。作为谷歌追赶AI市场的关键一步,其发布被视为重塑行业格局的契机,并获巴菲特43亿美元加仓支持。

2025年11月17日
京东云灵境创作中心整合拍我AI推出1元生成5秒促销视频工具

京东云灵境创作中心在双十一期间整合拍我AI推出创新工具,以1元成本生成5秒促销视频。该合作融合AI视频生成与云计算技术,显著降低电商内容制作门槛并激活教培文旅行业潜力。

2025年11月12日
商汤开源空间智能大模型SenseNova-SI,评测性能超越GPT-5与Gemini 2.5 Pro

商汤科技宣布开源SenseNova-SI系列模型,在权威评测中该多模态大模型以60.99平均分显著领先GPT-5和Gemini 2.5 Pro。通过验证的'尺度效应'训练范式,模型在六大空间维度实现突破,并与'开悟'世界模型协同推动具身智能应用。

2025年11月12日
智象未来荣获ACM国际多媒体会议最佳演示奖

中国初创企业智象未来凭借多模态生成式AI技术在第33届ACM国际多媒体会议上获得最佳演示奖,成为首个获此殊荣的中国团队。其研发的'灵感智能体'技术突破行业瓶颈,重新定义创作范式并显著降低专业内容创作门槛。

2025年11月07日