阿里团队推出 AI 视频生成框架 Tora,实现高运动保真度
三言科技 8月5日消息,近日,阿里团队推出AI视频生成框架Tora。据介绍,这是第一个面向轨迹的DiT框架,该框架同时集成了文本、视觉和轨迹条件以进行视频生成。
具体来说,Tora由一个轨迹提取器(TE)、一个时空DiT和一个运动引导熔融器(MGF) 组成。TE使用3D视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF将运动贴片集成到DiT模块中,以生成遵循轨迹的连贯视频。Tora的设计与DiT的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。在实现高运动保真度方面表现出色,而且可以细致地模拟物理世界动态。相关论文已发布在arXiv上。
目前,Tora项目主页仅提供视频演示。
海量资讯、精准解读,尽在新浪财经APP