Meta 发布 92 页技术报告,详解 Movie Gen 实现的技术要点

aixo 2024-10-05 13:21:58
大模型 2024-10-05 13:21:58

文本输入: , and a sound as the lands on .

92页技术报告,同用Llama 3架构

Movie Gen发布同时,Meta还祭出了92页的技术报告。值得一提的是,这次团队也被命名为「Movie Gen team」。

Llama_llamahair是什么意思_llamarse

之父 表示,其中很多细节将会推动AI视频领域的发展。

接下来,一起看看Movie Gen得以实现的技术要点吧。

llamarse_llamahair是什么意思_Llama

研究人员表示,Movie Gen主要是基于两种基础模型打造的,一个是Movie Gen Video,另一个是Movie Gen Audio。

Movie Gen Video

Movie Gen Video参数有300亿,基础架构细节如下图所示。

Llama_llamarse_llamahair是什么意思

它能够联合文本到图像和文本到视频的生成。

llamahair是什么意思_llamarse_Llama

Movie Gen Video可以遵循文本提示,生成长达16秒、16帧每秒高清视频。

它也是通过预训练微调完成,在骨干网络架构上,它继续沿用了的设计,尤其是借鉴的的设计。

llamahair是什么意思_Llama_llamarse

而且,该模型有强大的适应性,可生成不同纵横比、分辨率和时长的高质量图像和视频。

预训练阶段,在大约1亿个视频和10亿张图像上进行了联合预训练。

它是通过「看」视频,来学习视觉世界。

实验结果发现,Movie Gen Video模型能够理解物理世界——

可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律,以及各种概念的合理运动。

在微调阶段,研究人员精选了一部分视频,对模型在美学、运动质量方面完成了微调。

llamahair是什么意思_llamarse_Llama

为了提高训练、推理效率,研究人员在时空压缩的潜在空间( Space)中进行生成。

为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。

然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。

流匹配,击败扩散损失

值得一提的是,研究人员还引入「流匹配」(Flow )来训练生成模型,这使得视频生成效果在精度、细节表现上,都优于扩散模型。

「流匹配」是一种新兴的生成模型训练方法,其核心思想是——直接学习样本从初始噪声状态向目标数据分布转化的过程。

而且,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。

与扩散模型相比,「流匹配」训练效率更高、计算成本更低、并且在时间维度保持连续性和一致性。

llamahair是什么意思_llamarse_Llama

有网友对此总结道,在质量和文本对齐上,人类评估都强烈倾向于流匹配,而不是扩散。

Llama_llamahair是什么意思_llamarse

此外,Movie Gen Video在技术上也引入了很多创新:

他们引入了创新的位置编码方法——「因子化可学习编码」,能够独立对高度、宽度、时间三个维度进行编码,然后将其相加。

基于这种灵活设计,让模型不仅能够适应不同宽高比,还能处理任意长度的视频。

另外,为了解决模型推理效率问题,研究人员采用了一种「线性-二次时间步长」的策略。

如下图所示,仅需50步,就能实现接近1000步采样效果,大幅提升了推理速度。

llamarse_Llama_llamahair是什么意思

与此同时,Movie Gen Video还采用了一种巧妙的「时间平铺」方法,进一步提升生成效率。

具体来说,这种方法将输入的视频,在时间维度上切分成多个小片段,然后对每个片对独立进行编码和解码,最后再将所有处理好的片段,重新拼接成完成视频。

llamarse_llamahair是什么意思_Llama

这种分而治之策略,不仅显著降低内存需求,还提高了整体推理效率。

为了确保最终生成的视频质量,团队在解码阶段采用了精心设计的重叠和混合技术。

最后微调得到的Movie Gen Video模型,与当前最先进的模型相比,大幅超越的Dream ,还有Gen-3。

它仅小幅超越了Sora、Kling 1.5。

llamarse_Llama_llamahair是什么意思

如下是,生成图像质量的对比。总的来说,Movie Gen Video在画面一致性、质量等方面,均取得了最优表现。

llamahair是什么意思_llamarse_Llama

提示中袋鼠走路细节,在Sora中到最后并没有展现。

Llama_llamarse_llamahair是什么意思

Movie Gen Audio

音频模型参数共有130亿,能够生成48kHz的高质量电影音效和音乐。

而且,这些AI音频与输入视频,实现同步。

Llama_llamarse_llamahair是什么意思

值得一提的是,Movie Gen Audio可以原生处理不同长度音频生成。

这一过程是通过TAE完成解码与编码。

llamarse_llamahair是什么意思_Llama

而且,通过音频延伸技术,能够为长达几分钟视频,制作出连贯长音频。

研究人员在大约100万小时音频上,对模型进行了预训练。

得到的预训练模型,不仅学会了物理关联,还学会了视觉世界和音频世界之间的心理关联。

Llama_llamarse_llamahair是什么意思

另外,模型还可以生成,与视觉场景匹配的非画面「内环境」声音,即便是声源没有出现在画面中。

最后,模型还可以生成支持情绪,并与视觉场景动作相匹配的非画面内音乐。

而且,它还能与专业地混合音效和背景音乐。

通过评估,与当前先进的音频模型等相比,Movie Gen Audio结果如下所示。

llamahair是什么意思_Llama_llamarse