智谱 AI 推出 AI 生成视频模型清影，多模态或成通往 AGI 之路标配

aixo 2024-07-27 08:53:42

2024-07-27 08:53:42

蓝鲸新闻7月26日讯（记者张信宇）在用Sora震惊科技业界半年后，越来越多的公司跟进了多模态，并且视为通往AGI之路的标配。

7月26日，AI大模型初创公司智谱AI CEO 张鹏在智谱Open Day上宣布，AI生成视频模型清影（Ying）正式上线智谱清言。跟此前的大语言模型一样，在生成式视频模型的研发中，张鹏认为 Law仍然在起作用：“随着算法、数据不断迭代，相信 Law将继续发挥强大威力。”

清华系背景的智谱AI是中国目前头部AI大模型初创公司之一。今年3月，智谱宣布完成由北京市人工智能产业投资基金参与的一轮融资；随后智谱又在6月初完成新一轮融资，投资方为中东石油巨头沙特阿美（）旗下风险投资部门管理的基金，估值达到约30亿美元，也成为第一个获得国外基金机构融资的国内AI独角兽。根据公开报道，智谱的股东阵容中还包括社保基金中关村自主创新基金（君联资本为基金管理人）、美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构。

与此前Sora、快手可灵等视频大模型的发布节奏不同，智谱清影一发布即全量上线，也就意味着无需申请、无需付费，所有C端用户都能直接体验到清影的AI文生视频、图生视频能力。不过，清影底座的视频生成模型是智谱开发的视频生成大模型，在B端仍然会收取一定费用，标准价格为0.5元/次，也可购买不同价格和优惠的资源包。

而随着清影的发布，智谱清言也终于初步成为了一个多模态的产品，与的产品矩阵越来越接近了。

“智谱从2021年就开始布局（视频模型）了。”智谱AI CEO 张鹏在当天采访中解释智谱在多模态上的缘起。不过与视频厂商不同，智谱作为模型厂商，其后选择的技术路线是先提高抽象、宏观层面的能力，以及对世界的建模和理解，再从上到下姜维到视觉信号。“这两个事情有对错吗？不一定。单模态的建模，语言模态的建模，跨模态的建模，最终会走向本质的物理世界统一的表示。大家追求的是同一个真理，只是走不同的路而已，可能是这样一个结局。”张鹏称。

与Sora一样，智谱也采用了DiT+的架构来打造视频生成模型，这使得智谱可以节省许多前期成本，并且以较快的增长速度达到一个基本拿得出手的产品水准，然后再继续迭代底层技术，同时也要寻求应用落地及商业化。

而关于视频模型的商业化，“现在这个阶段，无论是To C还是To B，大规模商业化还比较早期。”张鹏解释道，“说实话我们也不知道商业化策略未来会怎么走、什么样的形式最好。目前所谓收费的策略更多的是一种自己的尝试，想看看看市场和用户的反馈，后面根据大家的反馈及时调整。也许大家喜欢这样，也许不喜欢这样，我们也不知道，大家用脚投票吧。”对应的成本方面，在目前刚刚上线的阶段也还无法作出统计。

不过，做视频模型与做语言模型不同的是，智谱在视频数据上存在一定的短板。张鹏表示，视频模型的训练数据对数据质量的要求很高，除了视频文件本身，还要有对应视频的字幕、文字描述等数据。此外，判断视频本身的高质量也有很多维度，包括视频的解析度、风格、分进、组合、连续性等等。并不能在短视频网站随便抓一个视频就能训练，所以对于数据本身的清洗、挑选、筛选也是很重要的过程。

“文字数据已经有多年积累，但视频数据是才这几年的事情，而且难度更高。”张鹏说。

与快手可灵视频模型不同，智谱作为模型厂商并没有自己的视频数据，因此其训练数据主要有两大来源，其一是公开数据集，其二就是拥有视频数据的合作伙伴，具体到智谱目前来说就是B站、央视频和华策影视。

理论上，智谱清影可以将6秒视频的生成时间缩短到30秒，但根据蓝鲸新闻记者的实际体验来看，目前时不时的还是要排队等待，因此实际生成时间会更长。不过考虑到完全没有使用门槛，这一尝鲜的代价仍然可以接受。

相比起来，的Sora于今年2月发布后至今一直没有向公众开放使用；快手可灵可能是国内厂商目前阶段效果最好的视频生成大模型，也刚刚于本周开放内测，需要付费最低66元（首周优惠最低33元）的月卡才能使用。

不过，张鹏仍然承认的领先优势，“（智谱清影）今天还只是一个初步的阶段性成果，还达不到像Sora演示出来那么好、那么长的视频，还需要更多的努力，也有很多其他原因。我们从来很坦诚承认我们和等世界顶级水平之间的差距。但是这条路还得自己走，我们在不断用自己的方式往前追赶，或者想怎么把视频生成算力成本降下来，响应速度提升上去，让技术人人可用。所以我们是在追求技术高度的同时，也同步追求技术的可普及性和成本，这也是我们这个团队的特点。”

智谱AI

智谱 AI 推出 AI 生成视频模型清影，多模态或成通往 AGI 之路标配

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号