智谱 AI 宣布开源 CogVideoX 视频生成大模型，单卡即可推理与微调

aixo 2024-08-08 10:52:46

2024-08-08 10:52:46

继此前在7月26日推出模型，并发布了基于这一打造的AI视频生成功能清影（Ying）后。日前智谱AI方面宣布，将开源视频生成大模型。

据智谱AI方面透露，包含多个不同尺寸的模型，目前将开源-2B，而参数量更大的模型也或将会在后续开源。该模型在FP-16精度下的推理仅需18GB显存、微调也只需要40GB显存，因此这也就意味着单张 RTX 4090显卡即可用于推理，单张 RTX A6000就能完成微调。

公开信息显示，-2B的提示词上限为226个token，其可生成长度为6秒、8帧/秒，分辨率为720×480的视频。需要注意的是，对此智谱AI方面也表示，“我们为视频质量的提升预留了广阔的空间，期待开发者在提示词优化、视频长度、帧率、分辨率、场景微调，以及围绕视频的各类功能开发上贡献开源的力量”。

此前智谱AI方面在发布模型时就曾透露，该模型采用了将文本、时间、空间三维一体融合的架构，并设计了 Block来实现文本与视频两种不同模态空间的对齐，以及通过Full 机制优化模态间的交互效果。

为了实现内容的连贯性，智谱AI则为研发了一套高效的三维变分自编码器结构（3D VAE），即通过三维卷积同时压缩视频的空间和时间维度，从而实现更高的压缩率和更好的重建质量。此外在可控性方面，其还打造了一款端到端的视频理解模型为大量视频数据生成描述，以增强对文本的理解以及对指令的遵循能力。

据了解，此前就已在智谱清言的PC端、移动端，以及小程序端上线，所有用户均可通过智谱清言开放的入口免费体验AI文本生成视频、图像生产视频服务。此外清影API还同步上线了大模型开放平台，企业及开发者可通过调用API的方式，来体验和使用文生视频及图生视频的模型能力。

【本文图片来自网络】

智谱AI