我国自主研发通用视频大模型 Vidu 正式上线,文生视频、图生视频功能强大
输入文字描述或上传图片,就能生成一段逼真视频。近日,我国自主研发的通用视频大模型Vidu()面向全球正式上线。据悉,这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080P,生成一段4秒的视频片段经实测仅需30秒。这一速度明显快于市场上一些AI视频工具,后者在生成4秒左右视频时通常需要用户等待1到5分钟,有时甚至需要更长时间。
Vidu由清华大学联合北京生数科技有限公司研发,于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍,Vidu具有“长时长、高一致性、高动态性”的特点,可根据文字和图片生成高清视频,且能保持高流畅、高动态的画面效果。该模型融合了与技术,创新性地开发了U-ViT架构,能够一键生成长达16秒、分辨率高达1080P的高清视频内容。截至目前,Vidu可支持一次性生成最长32秒的视频,进一步扩展了视频创作的边界。
“Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军说,对于科幻、西部、浪漫、动画等多类型电影,Vidu能生成符合对应风格的画面片段,还能生成影视级特效画面,如烟雾、炫光等效果。
据介绍,在动态性方面,Vidu可生成复杂动态镜头,支持大幅度、精准的动作生成,能在画面里实现远景、近景、中景、特写等不同镜头的切换,能直接生成长镜头、追焦、转场等效果。
除文生视频和图生视频两大基础功能外,为了给用户提供更加多样化和个性化的视频创作体验,Vidu还上线了“动漫风格”和“角色一致性”两大新功能。在“图生视频”板块中,利用“角色一致性”功能,用户可上传人像图或自定义的角色图,通过文字描述就可指定图中角色在任意场景中做任意动作。该功能简化了视频制作流程,也提升了创作自由度。
数字时代,人工智能技术的创新应用不断为人们带来惊喜。今年年初,文生视频大模型Sora一经发布便引发了全球广泛关注与讨论。目前业界对视频模型的评价主要围绕三大核心维度:语义理解准确性、画面美观性、主体动态一致性。Vidu较好地平衡了这三方面的表现。它能准确理解并生成提示词中的文字,包括字母、数字等,并能生成文字特效。对第一人称、延时摄影等镜头语言,Vidu也能精准表达,用户只需细化提示词,即可大幅提升视频可控性。同时,Vidu支持大幅度、精准的动作生成,可保持高流畅、高动态的画面效果。
众所周知,视频生成产品的开发周期长且费用高昂。而从发布到上线仅3个月,北京生数科技就完成了对Vidu的快速迭代,实现了高质量的视频生成效果,这离不开Vidu研发团队在模型高效训练方面积累的工程化经验。密集而快节奏的模型训练任务,不仅需要大规模的算力,还需要从数据准备到模型训练再到模型推理的全链路保障。
Vidu在模型训练层面采用了百度百舸·AI异构计算平台。百舸是百度智能云基于过去多年在AI方面的沉淀,以GPU为核心搭建的异构计算平台,更适合大模型训练,保障模型训练的稳定性和效率。
在提升模型训练效率方面,百舸可以把不同地点、不同规模、不同集群的算力统一管理起来,通过芯片性能优化、自动芯片选型、潮汐混部这些经验和技术,大幅提升智能算力效能,万卡集群上的模型有效训练时长占比超过98.8%,线性加速比和带宽有效性均超过了95%,是业界领先的算力效能。
在提升模型训练稳定性方面,百舸提供了丰富的运维和可观测工具以及容错保障能力,提升了大规模集群长期运行的稳定性,降低因为故障导致训推任务异常终止的概率,减少业务损失。
据悉,操作Vidu无需申请,用户直接使用邮箱注册即可上手体验。Vidu的技术突破源于研发团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队在2022年就提出并持续开展自主研发。