核心要点👉
- 🎧 实现360V2SA任务攻克全景视频与空间音频实时匹配难题
- 📊 构建Sphere360数据集含10.3万视频片段共288小时时长
- 🧠 两阶段训练策略提升空间音频生成精度
- 🔓 全面开源模型架构与数据集降低技术门槛
- 🚀 端到端处理流程推动沉浸式音频应用落地
数智朋克讯,阿里通义实验室近期推出空间音频生成模型OmniAudio,该技术通过解析360°全景视频直接合成三维声场,为虚拟现实领域提供沉浸式听觉解决方案。OmniAudio的核心突破在于实现360V2SA(360-degree Video to Spatial Audio)任务,攻克了全景视频与空间音频的实时匹配难题,生成的音频采用FOA(First-order Ambisonics)标准格式,精准捕捉声源方位信息,还原真实三维声学环境。
为解决训练数据稀缺的行业痛点,团队构建了Sphere360数据集,包含10.3万个真实场景视频片段及对应FOA音频,总时长达到288小时。模型训练采用两阶段策略:先通过自监督coarse-to-fine流匹配预训练提取视频特征,再结合双分支视频表示进行有监督微调,有效提升空间音频的生成精度。
该项目已全面开源,技术论文与代码库同步发布于学术平台。开发者可通过GitHub获取完整模型架构与Sphere360数据集,论文详细阐述了基于流匹配的跨模态学习方法。这种开放策略显著降低了空间音频技术的研发门槛,为元宇宙内容创作提供底层技术支持。
OmniAudio的推出标志着空间音频生成领域的重要进展,其端到端的处理流程省去了传统方案中复杂的多设备采集环节。在288小时真实场景数据的支持下,该模型能够根据视觉场景动态生成具有方位信息的声场,使VR观影、游戏等场景的声画同步达到新高度。开源生态的建立将进一步加速沉浸式音频技术在消费电子领域的应用落地。