MiniMax 发布视频模型 abab-video-1,虽晚于 Sora 但解决了更难的技术问题

aixo 2024-09-04 10:35:36
大模型 2024-09-04 10:35:36

大模型是拼速度的领域,但有时候慢可能是另一种快。

8月31日,国内AI独角兽企业上海稀宇科技有限公司(以下简称“”)在首届开发者大会“伙伴日”上低调发布视频模型abab-video-1,输入提示词就可生成时长最高6秒的视频,主打高分辨率、高帧率。

换个说法,所说的视频模型类似于的Sora这种文生视频模型。作为的创始人兼首席执行官,闫俊杰认为“快”是该公司底层大模型的核心技术研发目标,不过,该视频模型晚了Sora好几个月。

“为什么我们的推出要晚一两个月?核心是我们在解决一个更难的技术问题,即如何能原生训练算力比较高的东西。”闫俊杰对《中国经营报》记者表示,在训练视频生成能力时,需要先把视频转化为一个个token(令牌),而这些token会非常长,随之复杂度就越高,“我们其实上半年主要干的事是把复杂度降低一些,把压缩率变得更高,所以晚了一两个月”。

介绍,根据内部评测以及跑分,该公司的视频模型比的效果更好。目前,可灵已推出会员订阅计划的商业化模式。那么,视频模型的商业模式会如何? 对此,闫俊杰表示:“我们的策略先再等一两周,新的东西出来之后,到了一个更加满意的状态后,可能会考虑(采取)一些商业化(举措)。”

他还提到,由于模型进步速度很快,AI生成视频尽管还不能替代传统的渲染引擎,但为创造出《黑神话:悟空》这样的3A游戏,“至少能提供一种可能性”。

到更加满意状态才考虑商业化

尽管未提及视频模型的商业化路径,但闫俊杰表示:“整个公司的商业化基本上分成两个形式,一个形式是我们的开放平台,现在已经有2000多家的客户,包括很多知名的互联网公司,也包括传统的企业。这里面本来就有用户使用声音和视觉的能力,不是所有的公司都像快手一样可以自己做,我们是一个很好的合作伙伴,这是2B部分。”

“第二个是我们自己的产品里也有广告的机制,广告可以做商业化的变现。”闫俊杰认为在目前的阶段,“最重要的东西还不是商业化,而是真正地让技术达到广泛可用的程度。”

技术相对复杂的AI生成视频(视频模型),成为今年大模型厂商的展示实力或“秀肌肉”的一个惯常操作,开了这个头。今年2月,发布视频大模型Sora,但跳票至今未公测。4月,生数科技发布视频大模型Vidu;6月,快手发布视频大模型可灵;7月,智谱AI生成视频模型清影正式上线……

出于什么考虑要做视频模型?闫俊杰表示,本质在于人类每天消费的大部分内容是图文和视频,文字占比不高,“为了能够有非常高的用户覆盖度,以及更高的使用深度,作为大模型厂商,唯一的办法是能够输出多模态的内容,而不是只输出单纯的基于文字的内容,这是一个非常核心的判断”。

他进一步提到:“只是在之前我们先做出来文字,又做出来声音,很早前做出来了图片,现在技术变得更强,(可以)把视频也做出来。这个路线是一以贯之的,一定要能做多模态。”之前做出大语言模型,又做声音模型,接着是图片模型,“只是现在技术变得更强,把视频也做出来。这个路线是一以贯之的,一定要能够做多模态”。

在AI算法工程师张昱轩看来,虽然并未公布视频模型的具体参数和技术要点,但从所展示的模型生成视频中可以看出公司的算法还是很强的,而快手的可灵相对来说工程技术更好。

而闫俊杰对记者表示:“不管是视频、文本、声音,团队的核心研发思路不在于要让算法提升5%、10%,比较重要的是能否提升几倍,如果能提升几倍就一定要做出来,只提升5%就不太值得做。”

据了解,的视频模型目前只是第一版,将先免费提供给用户使用一段时间,很快会有新版本。“后续会在数据、算法本身,包括更加方便使用的细节,比如现在只提供了文生视频,未来图生视频、文+图生成视频,以及可编辑、可控性都会陆续出来。”闫俊杰说。

《黑神话:悟空》的热度依旧,AI又在游戏中创造了新玩法。日前,谷歌在一篇论文中指出,他们打造出了首个完全AI驱动的实时游戏引擎——,能以每秒20帧实时生成经典射击游戏《毁灭战士》的游戏画面,所有游戏画面都是根据玩家操作,与复杂环境进行交互而实时生成,每一帧都由扩散模型预测。

那么,未来AI实时生成3A游戏大作还会远吗?闫俊杰表示,《黑神话:悟空》采用的还是传统建模渲染的方式,这种方式进步速度已经很慢了,而生成视频和生成文本是一样的,两年前生成文本可能完全不可用,但现在变得可用,且发展速度很快。

“(视频生成)其实都只是一个开始,因为这只是第一年,接下来的进步速度一定会变得非常快。我不太知道能否替代掉传统的渲染引擎,但是至少能够提供一种可能性,因为进步速度快,越长期看,进步越快的东西就越好。”闫俊杰表示。

使用量显著增长模型竞争力增强

快,是闫俊杰多次提到的关键词。“不管是做MoE还是 ,还是其他的探索,本质上还是让同样的效果模型变得更快。”闫俊杰表示,快就是好,意味着同样的算力可以变得更好,这是做底层研发的思路。

同时,他还指出,如何让模型的错误率持续降低、无限长的输入和输出以及多模态,是行业需要持续解决的三个挑战。

据公司介绍,在过往经历了两次关键的底层技术变革,包括MoE( of ,混合专家模型)和 (线性注意力)。今年4月,该公司研发出的新一代基于MoE+ 的模型,水平比肩GPT-4o。

公开资料显示,是一家成立于2021年12月的人工智能初创公司,由商汤科技前副总裁、研究院前副院长闫俊杰创立,成员主要来自商汤科技这些知名AI公司。

天眼查显示,今年3月,完成了B轮的6亿美元融资,投资方为阿里巴巴,其估值达到25亿美元。此前的2023年6月,完成了超2.5亿美元的A轮融资,投资方为腾讯投资。

创立一年后,自研了文本到视觉、文本到语音、文本到文本三个模态的基础模型架构,并在基础模型之上构建起一个计算推理平台。

在产品上,同时兼顾B端和C端市场,C端应用有角色扮演类AI聊天应用Glow、AI社交软件星野、AI语音对话助手海螺问问等,B端则是为企业提供定制化的API接口,允许企业接入ABAB模型的各种能力,火山引擎、金山办公、钉钉、智联招聘、阅文等公司都在使用其服务。官方数据显示,目前的模型每天与全球用户进行超30亿次交互,处理超3万亿文本token、2000万张图片和7万小时语音。一年前,交互时长仅为的3%,现在这一比例已提升至53%。

自5月以来,大模型领域掀起价格战,API降至“白菜价”。谈及大模型价格战时,闫俊杰指出,有了价格战后,很多传统的企业开始愿意使用大模型,“客观地来说,非常大地提高了模型的调用量”。

同时,这也从侧面推动模型性能的进步,中国的大模型在东南亚等海外也有了竞争力。“国内的模型正是这么激烈的竞争,推着大家一定要往前赶,目前至少在非英语国家的语种上也能够有一个跟GPT不相上下的水平。”闫俊杰表示,竞争不可避免,就要努力做到最好,乐观的一面显示两个积极的变化:一是国内大模型的使用量在显著地增长,二是中国的模型在海外确实越来越具有竞争力。

闫俊杰表示,大部分公司本认为大模型很贵,之后很多人认为大模型很便宜,可以放心地使用。最终惊奇地发现,有许多传统企业非常愿意使用大模型,他们觉得反正成本低,出错了之后也不要紧,多调用一次就好了。客观来说,这极大提高了模型调用量,从而推动模型做得更好,至少目前在非英语语种上,国内大模型水平已与GPT不相上下。因此,乐观角度看,国内大模型的使用量确实在显著地增长,并且中国AI大模型在海外确实越来越具有竞争力。

当谈及与互联网大厂可能发生正面竞争时,闫俊杰表示,能做的就是把有可能变强的事无限地放大,一个是技术如何做提升,另一个是如何跟用户做更好的共创。