Meta 发布 92 页技术报告,详解 Movie Gen 实现的技术要点
文本输入: , and a sound as the lands on .
92页技术报告,同用Llama 3架构
Movie Gen发布同时,Meta还祭出了92页的技术报告。值得一提的是,这次团队也被命名为「Movie Gen team」。
之父 表示,其中很多细节将会推动AI视频领域的发展。
接下来,一起看看Movie Gen得以实现的技术要点吧。
研究人员表示,Movie Gen主要是基于两种基础模型打造的,一个是Movie Gen Video,另一个是Movie Gen Audio。
Movie Gen Video
Movie Gen Video参数有300亿,基础架构细节如下图所示。
它能够联合文本到图像和文本到视频的生成。
Movie Gen Video可以遵循文本提示,生成长达16秒、16帧每秒高清视频。
它也是通过预训练微调完成,在骨干网络架构上,它继续沿用了的设计,尤其是借鉴的的设计。
而且,该模型有强大的适应性,可生成不同纵横比、分辨率和时长的高质量图像和视频。
预训练阶段,在大约1亿个视频和10亿张图像上进行了联合预训练。
它是通过「看」视频,来学习视觉世界。
实验结果发现,Movie Gen Video模型能够理解物理世界——
可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律,以及各种概念的合理运动。
在微调阶段,研究人员精选了一部分视频,对模型在美学、运动质量方面完成了微调。
为了提高训练、推理效率,研究人员在时空压缩的潜在空间( Space)中进行生成。
为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。
然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。
流匹配,击败扩散损失
值得一提的是,研究人员还引入「流匹配」(Flow )来训练生成模型,这使得视频生成效果在精度、细节表现上,都优于扩散模型。
「流匹配」是一种新兴的生成模型训练方法,其核心思想是——直接学习样本从初始噪声状态向目标数据分布转化的过程。
而且,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。
与扩散模型相比,「流匹配」训练效率更高、计算成本更低、并且在时间维度保持连续性和一致性。
有网友对此总结道,在质量和文本对齐上,人类评估都强烈倾向于流匹配,而不是扩散。
此外,Movie Gen Video在技术上也引入了很多创新:
他们引入了创新的位置编码方法——「因子化可学习编码」,能够独立对高度、宽度、时间三个维度进行编码,然后将其相加。
基于这种灵活设计,让模型不仅能够适应不同宽高比,还能处理任意长度的视频。
另外,为了解决模型推理效率问题,研究人员采用了一种「线性-二次时间步长」的策略。
如下图所示,仅需50步,就能实现接近1000步采样效果,大幅提升了推理速度。
与此同时,Movie Gen Video还采用了一种巧妙的「时间平铺」方法,进一步提升生成效率。
具体来说,这种方法将输入的视频,在时间维度上切分成多个小片段,然后对每个片对独立进行编码和解码,最后再将所有处理好的片段,重新拼接成完成视频。
这种分而治之策略,不仅显著降低内存需求,还提高了整体推理效率。
为了确保最终生成的视频质量,团队在解码阶段采用了精心设计的重叠和混合技术。
最后微调得到的Movie Gen Video模型,与当前最先进的模型相比,大幅超越的Dream ,还有Gen-3。
它仅小幅超越了Sora、Kling 1.5。
如下是,生成图像质量的对比。总的来说,Movie Gen Video在画面一致性、质量等方面,均取得了最优表现。
提示中袋鼠走路细节,在Sora中到最后并没有展现。
Movie Gen Audio
音频模型参数共有130亿,能够生成48kHz的高质量电影音效和音乐。
而且,这些AI音频与输入视频,实现同步。
值得一提的是,Movie Gen Audio可以原生处理不同长度音频生成。
这一过程是通过TAE完成解码与编码。
而且,通过音频延伸技术,能够为长达几分钟视频,制作出连贯长音频。
研究人员在大约100万小时音频上,对模型进行了预训练。
得到的预训练模型,不仅学会了物理关联,还学会了视觉世界和音频世界之间的心理关联。
另外,模型还可以生成,与视觉场景匹配的非画面「内环境」声音,即便是声源没有出现在画面中。
最后,模型还可以生成支持情绪,并与视觉场景动作相匹配的非画面内音乐。
而且,它还能与专业地混合音效和背景音乐。
通过评估,与当前先进的音频模型等相比,Movie Gen Audio结果如下所示。