新 AI 六小龙之一智谱宣布清影视频生成工具重要升级

aixo 2024-11-09 12:08:43

2024-11-09 12:08:43

新京报贝壳财经讯（记者罗亦丹）今年以来，Sora带火的AI生成视频吸引了许多人的关注，年内各式各样的AI视频大模型层出不穷，但有一点是一致的：所有AI生成的视频都是一段无声的“默片”。不过这一点即将迎来改变。

11月8日，“新AI六小龙”之一的北京AI大模型公司智谱宣布，其视频生成工具清影进行了重要升级，新清影在以下5个方面实现了提升：模型能力上，在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强；支持生成 10s、4K、60 帧超高清视频；支持任意比例的图像生成视频，包括超宽画幅；新增同一指令/图片可以一次性生成4个视频的多通道生成能力；以及最重要的——新清影可以生成与画面匹配的音效，其音效功能将在本月上线公测。

根据智谱AI展示的视频，新清影生成的视频有着各式各样的音效，如出现赛车视频时的引擎轰鸣声，主角飞到空中时风刮过衣领猎猎作响的声音，以及拉小提琴时可以贴合手部动作的琴声等。

智谱AI演示视频截图，图中拉小提琴的视频为AI生成，且有声音。

智谱披露的技术博客文档显示，为视频增添声音的是其开发的多模态模型家族音效模型，基于GLM-4V的视频理解能力，能够准确识别并理解视频背后的语义和情感，并为无声视频添加与之相匹配的音频内容，甚至可以生成更加复杂的音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

具体来看，的音效生成能力主要得益于采用潜空间扩散模型（ Model），将音频生成过程从高维的原始空间转移到低维潜空间，降低了计算复杂度，同时保持了生成音频的高质量和高效率；引入分块时序对齐交叉注意力（Block-wise Cross-）机制，优化了视频长序列与音频特征之间的特征匹配；整合了旋转位置编码技术，通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系，让每个视频帧的位置都拥有独特的“坐标”，在音频生成中有效提升了时序一致性，确保音频序列的连贯性和过渡自然性。

“当前，AI生成视频用于影视创作仍需要多种不同的创作工具串联使用，但基于我们多模态的最新成果，实现这种一站式原生多模态工作流，这样的前景无疑是激动人心的。”智谱方面表示。

校对吴兴发

智谱AI

新 AI 六小龙之一智谱宣布清影视频生成工具重要升级

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号