数智朋克获悉,字节跳动在Hugging Face平台开源文本驱动的高保真身份保持型视觉-语言生成系统FaceCLIP。该技术通过多模态编码实现身份一致性生成,提供两个优化版本并支持多场景应用,性能指标超越主流方案。
谷歌研究助手NotebookLM集成图像生成模型Nano Banana,支持动态视频摘要和六种视觉风格,处理速度提升30%。
蚂蚁集团正式发布开源语言模型Ling-1T,采用FP8混合精度训练技术,支持128K上下文窗口,在AIME竞赛数学准确率达70.42%。该模型具备多模态任务转换能力,同步开放模型权重与体验接口。
腾讯混元图像3.0在LMArena全球盲测榜单中超越26个主流大模型登顶。该开源模型发布一周即占据Hugging Face热榜首位,衍生模型超3000个。
阿里云通义千问正式开放Qwen3-VL-30B-A3B-Instruct与Thinking模型源代码,同步推出FP8精度版本,该模型在多项视觉任务中性能达到国际先进水平。模型采用混合架构支持灵活部署,并升级图形界面操作、视觉编码等核心功能,扩展上下文窗口至1M。
OpenAI正式推出GDPval评估基准,覆盖九大行业44个知识型职业的1320项专业任务,由平均14年经验专家设计。评估采用专家盲评机制,测试显示模型完成任务速度比人类快100倍且成本仅1%,同时揭示当前版本局限性及扩展计划。
DeepSeek开源视觉多模态模型Janus-Pro-7B,支持图像生成与本地部署,被誉国产AI突破。同时面临技术迁移瓶颈、市场竞争加剧及模型幻觉问题,阿里巴巴Qwen3-VL多模态模型形成技术对比。
Meta正式发布AI视频创作平台Vibes,支持通过文本指令自动生成短视频内容,实现端到端创作流程。该平台深度集成内容分发机制,打通从生产到传播的完整链路,强化社交生态闭环。
生数科技于披露完成数亿元人民币A轮融资,博华资本作为领投方主导本轮投资。该企业聚焦多模态大模型研发,旗舰产品Vidu已覆盖200多个国家和地区,累计吸引超3000万用户和6000家企业客户。
马斯克旗下人工智能公司xAI正式推出新一代多模态推理模型Grok-4 Fast,核心创新包括支持200万token上下文窗口和端到端强化学习训练机制。该模型已向公众开放,定价策略较市场同类产品降低98%运营成本,并在多项基准测试中展现领先性能。