智谱 AI 宣布开源 CogVideoX 视频生成大模型,单卡即可推理与微调

aixo 2024-08-08 10:52:46
大模型 2024-08-08 10:52:46

继此前在7月26日推出模型,并发布了基于这一打造的AI视频生成功能清影(Ying)后。日前智谱AI方面宣布,将开源视频生成大模型。

谱智教育怎么样_智谱AI_谱智清言

据智谱AI方面透露,包含多个不同尺寸的模型,目前将开源-2B,而参数量更大的模型也或将会在后续开源。该模型在FP-16精度下的推理仅需18GB显存、微调也只需要40GB显存,因此这也就意味着单张 RTX 4090显卡即可用于推理,单张 RTX A6000就能完成微调。

公开信息显示,-2B的提示词上限为226个token,其可生成长度为6秒、8帧/秒,分辨率为720×480的视频。需要注意的是,对此智谱AI方面也表示,“我们为视频质量的提升预留了广阔的空间,期待开发者在提示词优化、视频长度、帧率、分辨率、场景微调,以及围绕视频的各类功能开发上贡献开源的力量”。

此前智谱AI方面在发布模型时就曾透露,该模型采用了将文本、时间、空间三维一体融合的架构,并设计了 Block来实现文本与视频两种不同模态空间的对齐,以及通过Full 机制优化模态间的交互效果。

为了实现内容的连贯性,智谱AI则为研发了一套高效的三维变分自编码器结构(3D VAE),即通过三维卷积同时压缩视频的空间和时间维度,从而实现更高的压缩率和更好的重建质量。此外在可控性方面,其还打造了一款端到端的视频理解模型为大量视频数据生成描述,以增强对文本的理解以及对指令的遵循能力。

据了解,此前就已在智谱清言的PC端、移动端,以及小程序端上线,所有用户均可通过智谱清言开放的入口免费体验AI文本生成视频、图像生产视频服务。此外清影API还同步上线了大模型开放平台,企业及开发者可通过调用API的方式,来体验和使用文生视频及图生视频的模型能力。

【本文图片来自网络】