DIGIPUNK
去投稿

OpenAI推出gpt-realtime语音模型,开启语音AI代理新阶段

OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。

2025年08月29日
腾讯混元开源视频音效生成模型Hunyuan-Foley

腾讯混元开源其端到端视频音效生成模型Hunyuan-Foley,该模型通过输入视频片段和文本描述自动生成电影级音效,解决了AI视频无声问题并实现音画精准同步。模型基于多模态处理能力和大规模数据集,适用于创意领域,并已开源推动技术协作。

2025年08月29日
中国移动在2025世界人工智能大会宣布AI+行动计划升级及九天模型突破

中国移动董事长杨杰宣布升级'AI+'行动计划,推动科技创新与产业创新深度融合。中移九天公司揭牌运营,九天模型在语言和多模态领域实现突破性进展,并开源核心模型促进生态成熟。

2025年07月27日
马斯克xAI推出旗舰模型Grok 4,多模态功能全面升级

马斯克旗下xAI通过直播发布多模态旗舰模型Grok 4,该模型在基准测试中超越当前行业标杆,学术能力达博士以上水平。Grok 4将整合进Tesla生态系统,并与GPT-5等竞争,但xAI因反犹言论问题面临多国禁令。

2025年07月11日
Mistral AI发布Pixtral Large多模态模型,以1240亿参数超越竞争对手

Mistral AI推出全新多模态AI模型Pixtral Large,拥有1240亿参数,在文本和图片处理领域表现卓越。在MathVista等基准测试中,该模型超过主流对手,支持大规模视觉数据处理及复杂推理。

2024年11月20日
IDC研究:中国AI数字人技术供应商迎来升级契机

IDC的最新研究评估了中国AI数字人技术供应商,指出随着大规模预训练模型和生成式AI技术的进步,AI数字人市场将在2023-2024年迎来重大升级。AI数字人正向更加普及和场景化的方向发展,未来在企业级服务和泛娱乐领域的应用将更加广泛。

2024年08月20日