AI 做叙述类影片废片率高，可控性和一致性不足成痛点

aixo 2024-09-13 03:06:08

2024-09-13 03:06:08

“用AI做叙述类影片，可能废片的比率会是50:1，即生成50张图片，其中只有一张才可能符合这类叙述创作。”9月11日，在北京生数科技有限公司（以下简称生数科技）举办的媒体开放日活动上，一名影视创作者在分享时作出上述表述。

伴随着大模型生成技术的发展，越来越多的影视创作者开始尝试将AI技术用于创作之中，但就目前看来，还存在很多痛点。

“AI生成视频不可控，元素一旦多就无法理解多个角色和空间场景。”来自AI影视创作者Vicky表示。来自海内外多位AI影视创作者表示，在实际创作过程中，普遍存在的核心问题即可控性不足或一致性不足，尤其当涉及复杂场景和交互场景时。

尽管AI视频模型在遵循指令方面表现出色，但输出结果仍有不确定性，可能需要多次尝试才能生成较为满意的画面。另外，AI生成模型在运镜、光影效果和细节处理方面仍然存在限制，难以做到完全精细地控制。

生数科技于今年7月30日正式上线了AI生成视频大模型，为了帮助创作者提升效率，该公司日前将视频模型Vidu的功能进行了新升级，发布了“主体参照”功能，该功能即针对一致性问题进行的开发，它可以实现对任意主体的一致性生成，让视频生成更加稳定、可控。

“主体参照”功能允许用户上传任意主体的一张图片，Vidu能够锁定该主体形象，通过描述词任意切换场景，输出主体一致的视频。

9月11日，澎湃科技（）记者登录生数科技官网Vidu平台尝试视频生成。分别上传了一张美国影星莱昂纳多·迪卡普里奥的三维图片，并输入“蓝天”、“酒杯”、“敬酒”等关键词；

输入词：“蓝天”、“酒杯”、“敬酒”等

用Vidu生成后的图像如下：

上传一张日本动漫《跃动青春》女主角的二维截图，并输入“跑步”、“迟到”、“早晨”等关键词后

用Vidu生成后的图像如下：

生数科技联合创始人兼CEO唐家渝在接受采访时表示，Vidu“主体参照”功能是目前全球首个具备一致性生成能力的技术。生数科技的核心任务是构建多模态大模型，AI视频生成目前还处于早期阶段，还有更多技术瓶颈有待未来突破。他认为，AI视频技术不会一直是小众人群的工具，预估今年年底，AI视频技术能普及到大众，用户可以轻松使用。

生数科技成立于2023年3月，核心团队成员来自清华大学人工智能研究院，首席科学家朱军为清华大学教授，联合创始人兼CEO唐家渝是清华大学自然语言处理实验室硕士，曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理。

自然语言处理

AI 做叙述类影片废片率高，可控性和一致性不足成痛点

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号