阿里发布AI视频生成框架Tora：实现高保真运动模拟

要点速达👈

数智朋克了解到，阿里团队推出了最新的AI视频生成框架Tora，集成了文本、视觉和轨迹条件，用于生成高质量视频。Tora的核心技术基于轨迹导向的扩散变换器（DiT），由轨迹提取器（TE）、时空DiT和运动引导融合器（MGF）组成。

Tora的轨迹提取器（TE）利用3D视频压缩网络，将任意轨迹编码为分层时空运动补丁。而运动引导融合器（MGF）则将这些运动补丁整合到DiT模块中，从而生成遵循轨迹的连贯视频。这样的设计使Tora能够无缝契合DiT的结构，支持制作最长204帧、720P分辨率的视频。

Tora在视频生成过程中，能够精确控制视频的不同持续时间、宽高比和分辨率。大量实验表明，Tora在实现高运动保真度方面表现出色，同时能细致模拟物理世界的运动。其独特的设计理念融合了文本、视觉和轨迹条件，能够精准控制视频内容。

这种创新技术为电影特效制作和虚拟现实领域带来了无限可能。通过模拟真实的物理运动规律，Tora不仅提升了视频生成的质量和效率，还为创意工作者提供了更多的创作自由和技术支持。

数智资讯订阅