OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。
埃隆・马斯克领导的xAI推出全新智能代码生成模型Grok Code Fast 1,支持多种编程语言并具备经济型定价策略。该模型已在主流开发平台限时免费开放,同时xAI对苹果及OpenAI发起反垄断诉讼。
腾讯混元开源其端到端视频音效生成模型Hunyuan-Foley,该模型通过输入视频片段和文本描述自动生成电影级音效,解决了AI视频无声问题并实现音画精准同步。模型基于多模态处理能力和大规模数据集,适用于创意领域,并已开源推动技术协作。
爱诗科技发布新一代PixVerse V5大模型和Agent创作助手,显著提升视频生成效率与质量。新功能大幅降低创作门槛,支持零基础用户一键生成专业视频内容。
谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,优化了速度与上下文理解,支持基于文本提示的精准编辑。该模型在LMArena基准测试中表现领先,提供安全机制,开发者可通过Gemini API等访问,输出定价为每百万token 30美元。
创新奇智与Bentley共同推出基于多模态工业大模型的生成式设计工具iPID,实现静态图纸向标准化PID图的智能化转化。该工具融合文本识别、图像解析与参数计算技术,颠覆传统手工设计流程,大幅提升工业设计效率。
钉钉正式推出AI硬件产品DingTalk A1,配备先进音频技术和AI工作流整合,支持会议场景高保真录音。该设备通过智能会议切入硬件市场,但初代产品核心性能需实际验证。