AI 初创公司 Hotshot 文生视频模型开放公测，兼顾效率与稳定性，风格多样生态开放

aixo 2024-08-23 00:26:02

2024-08-23 00:26:02

智东西

编译徐豫

编辑漠影

智东西8月22日消息，据 8月20日报道，AI初创公司的同名文生视频模型“”开放公测，用户可以访问.co官网使用该模型，现阶段每人每天有两次免费创作机会。

模型由4人小团队用数千块GPU训练而成，可以生成10秒以内不同主题的视频，耗时短、清晰度高、操作界面简洁。与主流的AI文生视频模型相比，公测版兼顾视频生成效率和稳定性的同时，视频风格更丰富，生态也更加开放，可生成无水印视频。

▲可用生成风格多样的视频（图源：）

成立于2023年，联合创始人为、John 和。这三位公司创始人已有11年的消费级应用开发经验，并从Lachy Groom、、SV Angel等人那里获得了资金支持。

体验地址：

一、最长10秒，清晰度720p，可定制动漫效果

文生视频模型是一款扩散模型，其最新版本可根据文字描述生成一段最长10秒、清晰度为720p的视频。

例如，在中输入“柯基坐在学校教室里”，我们可以得到，两只毛发分明顺滑的柯基，身穿不同花色、样式的衣服，坐在木色椅子上东张西望，柯基身后是写有粉笔字的黑板，而黑板旁有一个陈列地球仪等教具的展示柜，整体拍摄视角不断推进的一段视频。

▲根据文本“柯基坐在学校教室里”AI生成的视频（图源：）

除了模拟真实的人物、场景、风景，用户还可以用制作动漫、逐帧动画、特效等风格化视频。

生成的一段视频中，一位金发年轻男子，身穿蓝色衬衫和深色裤子，坐在客厅的黄色沙发上，玩着手持电子游戏，客厅布置了绿植、挂画。视频画面配色鲜艳、笔触粗犷，呈现出50年代的复古漫画风格。

▲可以风格化处理视频（图源：）

二、4个人耗时4个月，投入6亿段素材，花费几千块GPU

这样一个“类Sora”的文生视频模型，仅靠团队4人，耗时4个月，便完成了该模型的训练工作。

据介绍，最新版的文生视频模型在训练中投入了6亿段视频及音频素材、几千块GPU，高强度的模型训练常常导致 H100 GPU出现故障，“机房差点着火”。为了让模型不偏离预期方向，团队成员一个月都没有休息，轮流监控训练结果。

3位创始人和新成员 Aluru还开发了一个新的自动编码器，在“空间”和“时间”上压缩视频内容，而非折损视频质量和相关数据，从而更高效地训练长序列视频。

三、过去一年多，模型3次升级换代

曾推出过AI文生图应用和两代AI文生视频模型，可惜未能激起较大的水花。

去年，上线了同名消费级AI文生图应用，用户可以免费用生成和修改照片，但该应用可能已被下架。

后续推出了AI文生视频模型-XL，并开源。该模型可以生成时长1秒，帧率8fps的视频。当时，-XL的月活用户超2万人次。 Act-One则是-XL的升级版，拓展了AI视频生成的时长上限。 Act-One模型可制作时长3秒，帧率同为8fps的视频。

联合创始人在社交媒体X的帖子中写道，是“目前最先进的公开模型”，十多年以来，我们首次能够为用户提供“强大且新颖的”AI文生视频功能，而这仅仅是一个开始。

结语：AI文生视频模型很卷，但还没有绝对的赢家

在看来，未来一年内，将被多模态生成式AI作品“刷屏”，AI文生图、文生视频、文生音频、图生视频等创作方式，将成为数字媒体上的常态。

市面上AI视频生成模型和应用的竞争也愈发激烈。AI视频创企 ML的Gen-3 Alpha Turbo、AI大模型独角兽尚未公开的Sora、3D建模与视觉AI公司Luma的Dream 等AI视频生成模型，以及AI视频创企Pika Labs的Pika AI视频生成应用，都有着较高的关注度。

与竞争对手相比，虽然文本还原度较高、视频生成速度较快，但现阶段的视频生成效果，在质量、细节和分辨率上都差强人意。网友用模型制作的视频，不少存在手部、腿部重影，物品悬空、动作逻辑错误、说话神态、口型单一等较为明显的漏洞。

▲马腿出现重影（图源：）

来源：、 X官方账号

GPU