AI 初创公司 Hotshot 文生视频模型开放公测,兼顾效率与稳定性,风格多样生态开放
智东西
编译 徐豫
编辑 漠影
智东西8月22日消息,据 8月20日报道,AI初创公司的同名文生视频模型“”开放公测,用户可以访问.co官网使用该模型,现阶段每人每天有两次免费创作机会。
模型由4人小团队用数千块GPU训练而成,可以生成10秒以内不同主题的视频,耗时短、清晰度高、操作界面简洁。与主流的AI文生视频模型相比,公测版兼顾视频生成效率和稳定性的同时,视频风格更丰富,生态也更加开放,可生成无水印视频。
▲可用生成风格多样的视频(图源:)
成立于2023年,联合创始人为 、John 和 。这三位公司创始人已有11年的消费级应用开发经验,并从Lachy Groom、 、SV Angel等人那里获得了资金支持。
体验地址:
一、最长10秒,清晰度720p,可定制动漫效果
文生视频模型是一款扩散模型,其最新版本可根据文字描述生成一段最长10秒、清晰度为720p的视频。
例如,在中输入“柯基坐在学校教室里”,我们可以得到,两只毛发分明顺滑的柯基,身穿不同花色、样式的衣服,坐在木色椅子上东张西望,柯基身后是写有粉笔字的黑板,而黑板旁有一个陈列地球仪等教具的展示柜,整体拍摄视角不断推进的一段视频。
▲根据文本“柯基坐在学校教室里”AI生成的视频(图源:)
除了模拟真实的人物、场景、风景,用户还可以用制作动漫、逐帧动画、特效等风格化视频。
生成的一段视频中,一位金发年轻男子,身穿蓝色衬衫和深色裤子,坐在客厅的黄色沙发上,玩着手持电子游戏,客厅布置了绿植、挂画。视频画面配色鲜艳、笔触粗犷,呈现出50年代的复古漫画风格。
▲可以风格化处理视频(图源:)
二、4个人耗时4个月,投入6亿段素材,花费几千块GPU
这样一个“类Sora”的文生视频模型,仅靠团队4人,耗时4个月,便完成了该模型的训练工作。
据介绍,最新版的文生视频模型在训练中投入了6亿段视频及音频素材、几千块GPU,高强度的模型训练常常导致 H100 GPU出现故障,“机房差点着火”。为了让模型不偏离预期方向,团队成员一个月都没有休息,轮流监控训练结果。
3位创始人和新成员 Aluru还开发了一个新的自动编码器,在“空间”和“时间”上压缩视频内容,而非折损视频质量和相关数据,从而更高效地训练长序列视频。
三、过去一年多,模型3次升级换代
曾推出过AI文生图应用和两代AI文生视频模型,可惜未能激起较大的水花。
去年,上线了同名消费级AI文生图应用,用户可以免费用生成和修改照片,但该应用可能已被下架。
后续推出了AI文生视频模型-XL,并开源。该模型可以生成时长1秒,帧率8fps的视频。当时,-XL的月活用户超2万人次。 Act-One则是-XL的升级版,拓展了AI视频生成的时长上限。 Act-One模型可制作时长3秒,帧率同为8fps的视频。
联合创始人在社交媒体X的帖子中写道,是“目前最先进的公开模型”,十多年以来,我们首次能够为用户提供“强大且新颖的”AI文生视频功能,而这仅仅是一个开始。
结语:AI文生视频模型很卷,但还没有绝对的赢家
在看来,未来一年内,将被多模态生成式AI作品“刷屏”,AI文生图、文生视频、文生音频、图生视频等创作方式,将成为数字媒体上的常态。
市面上AI视频生成模型和应用的竞争也愈发激烈。AI视频创企 ML的Gen-3 Alpha Turbo、AI大模型独角兽尚未公开的Sora、3D建模与视觉AI公司Luma的Dream 等AI视频生成模型,以及AI视频创企Pika Labs的Pika AI视频生成应用,都有着较高的关注度。
与竞争对手相比,虽然文本还原度较高、视频生成速度较快,但现阶段的视频生成效果,在质量、细节和分辨率上都差强人意。网友用模型制作的视频,不少存在手部、腿部重影,物品悬空、动作逻辑错误、说话神态、口型单一等较为明显的漏洞。
▲马腿出现重影(图源:)
来源:、 X官方账号