MiniMax 发布视频模型 abab-video-1，虽晚于 Sora 但解决了更难的技术问题

aixo 2024-09-04 10:35:36

2024-09-04 10:35:36

大模型是拼速度的领域，但有时候慢可能是另一种快。

8月31日，国内AI独角兽企业上海稀宇科技有限公司（以下简称“”）在首届开发者大会“伙伴日”上低调发布视频模型abab-video-1，输入提示词就可生成时长最高6秒的视频，主打高分辨率、高帧率。

换个说法，所说的视频模型类似于的Sora这种文生视频模型。作为的创始人兼首席执行官，闫俊杰认为“快”是该公司底层大模型的核心技术研发目标，不过，该视频模型晚了Sora好几个月。

“为什么我们的推出要晚一两个月？核心是我们在解决一个更难的技术问题，即如何能原生训练算力比较高的东西。”闫俊杰对《中国经营报》记者表示，在训练视频生成能力时，需要先把视频转化为一个个token（令牌），而这些token会非常长，随之复杂度就越高，“我们其实上半年主要干的事是把复杂度降低一些，把压缩率变得更高，所以晚了一两个月”。

介绍，根据内部评测以及跑分，该公司的视频模型比的效果更好。目前，可灵已推出会员订阅计划的商业化模式。那么，视频模型的商业模式会如何？对此，闫俊杰表示：“我们的策略先再等一两周，新的东西出来之后，到了一个更加满意的状态后，可能会考虑（采取）一些商业化（举措）。”

他还提到，由于模型进步速度很快，AI生成视频尽管还不能替代传统的渲染引擎，但为创造出《黑神话：悟空》这样的3A游戏，“至少能提供一种可能性”。

到更加满意状态才考虑商业化

尽管未提及视频模型的商业化路径，但闫俊杰表示：“整个公司的商业化基本上分成两个形式，一个形式是我们的开放平台，现在已经有2000多家的客户，包括很多知名的互联网公司，也包括传统的企业。这里面本来就有用户使用声音和视觉的能力，不是所有的公司都像快手一样可以自己做，我们是一个很好的合作伙伴，这是2B部分。”

“第二个是我们自己的产品里也有广告的机制，广告可以做商业化的变现。”闫俊杰认为在目前的阶段，“最重要的东西还不是商业化，而是真正地让技术达到广泛可用的程度。”

技术相对复杂的AI生成视频（视频模型），成为今年大模型厂商的展示实力或“秀肌肉”的一个惯常操作，开了这个头。今年2月，发布视频大模型Sora，但跳票至今未公测。4月，生数科技发布视频大模型Vidu；6月，快手发布视频大模型可灵；7月，智谱AI生成视频模型清影正式上线……

出于什么考虑要做视频模型？闫俊杰表示，本质在于人类每天消费的大部分内容是图文和视频，文字占比不高，“为了能够有非常高的用户覆盖度，以及更高的使用深度，作为大模型厂商，唯一的办法是能够输出多模态的内容，而不是只输出单纯的基于文字的内容，这是一个非常核心的判断”。

他进一步提到：“只是在之前我们先做出来文字，又做出来声音，很早前做出来了图片，现在技术变得更强，（可以）把视频也做出来。这个路线是一以贯之的，一定要能做多模态。”之前做出大语言模型，又做声音模型，接着是图片模型，“只是现在技术变得更强，把视频也做出来。这个路线是一以贯之的，一定要能够做多模态”。

在AI算法工程师张昱轩看来，虽然并未公布视频模型的具体参数和技术要点，但从所展示的模型生成视频中可以看出公司的算法还是很强的，而快手的可灵相对来说工程技术更好。

而闫俊杰对记者表示：“不管是视频、文本、声音，团队的核心研发思路不在于要让算法提升5%、10%，比较重要的是能否提升几倍，如果能提升几倍就一定要做出来，只提升5%就不太值得做。”

据了解，的视频模型目前只是第一版，将先免费提供给用户使用一段时间，很快会有新版本。“后续会在数据、算法本身，包括更加方便使用的细节，比如现在只提供了文生视频，未来图生视频、文+图生成视频，以及可编辑、可控性都会陆续出来。”闫俊杰说。

《黑神话：悟空》的热度依旧，AI又在游戏中创造了新玩法。日前，谷歌在一篇论文中指出，他们打造出了首个完全AI驱动的实时游戏引擎——，能以每秒20帧实时生成经典射击游戏《毁灭战士》的游戏画面，所有游戏画面都是根据玩家操作，与复杂环境进行交互而实时生成，每一帧都由扩散模型预测。

那么，未来AI实时生成3A游戏大作还会远吗？闫俊杰表示，《黑神话：悟空》采用的还是传统建模渲染的方式，这种方式进步速度已经很慢了，而生成视频和生成文本是一样的，两年前生成文本可能完全不可用，但现在变得可用，且发展速度很快。

“（视频生成）其实都只是一个开始，因为这只是第一年，接下来的进步速度一定会变得非常快。我不太知道能否替代掉传统的渲染引擎，但是至少能够提供一种可能性，因为进步速度快，越长期看，进步越快的东西就越好。”闫俊杰表示。

使用量显著增长模型竞争力增强

快，是闫俊杰多次提到的关键词。“不管是做MoE还是，还是其他的探索，本质上还是让同样的效果模型变得更快。”闫俊杰表示，快就是好，意味着同样的算力可以变得更好，这是做底层研发的思路。

同时，他还指出，如何让模型的错误率持续降低、无限长的输入和输出以及多模态，是行业需要持续解决的三个挑战。

据公司介绍，在过往经历了两次关键的底层技术变革，包括MoE（ of ，混合专家模型）和（线性注意力）。今年4月，该公司研发出的新一代基于MoE+ 的模型，水平比肩GPT-4o。

公开资料显示，是一家成立于2021年12月的人工智能初创公司，由商汤科技前副总裁、研究院前副院长闫俊杰创立，成员主要来自商汤科技这些知名AI公司。

天眼查显示，今年3月，完成了B轮的6亿美元融资，投资方为阿里巴巴，其估值达到25亿美元。此前的2023年6月，完成了超2.5亿美元的A轮融资，投资方为腾讯投资。

创立一年后，自研了文本到视觉、文本到语音、文本到文本三个模态的基础模型架构，并在基础模型之上构建起一个计算推理平台。

在产品上，同时兼顾B端和C端市场，C端应用有角色扮演类AI聊天应用Glow、AI社交软件星野、AI语音对话助手海螺问问等，B端则是为企业提供定制化的API接口，允许企业接入ABAB模型的各种能力，火山引擎、金山办公、钉钉、智联招聘、阅文等公司都在使用其服务。官方数据显示，目前的模型每天与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音。一年前，交互时长仅为的3%，现在这一比例已提升至53%。

自5月以来，大模型领域掀起价格战，API降至“白菜价”。谈及大模型价格战时，闫俊杰指出，有了价格战后，很多传统的企业开始愿意使用大模型，“客观地来说，非常大地提高了模型的调用量”。

同时，这也从侧面推动模型性能的进步，中国的大模型在东南亚等海外也有了竞争力。“国内的模型正是这么激烈的竞争，推着大家一定要往前赶，目前至少在非英语国家的语种上也能够有一个跟GPT不相上下的水平。”闫俊杰表示，竞争不可避免，就要努力做到最好，乐观的一面显示两个积极的变化：一是国内大模型的使用量在显著地增长，二是中国的模型在海外确实越来越具有竞争力。

闫俊杰表示，大部分公司本认为大模型很贵，之后很多人认为大模型很便宜，可以放心地使用。最终惊奇地发现，有许多传统企业非常愿意使用大模型，他们觉得反正成本低，出错了之后也不要紧，多调用一次就好了。客观来说，这极大提高了模型调用量，从而推动模型做得更好，至少目前在非英语语种上，国内大模型水平已与GPT不相上下。因此，乐观角度看，国内大模型的使用量确实在显著地增长，并且中国AI大模型在海外确实越来越具有竞争力。

当谈及与互联网大厂可能发生正面竞争时，闫俊杰表示，能做的就是把有可能变强的事无限地放大，一个是技术如何做提升，另一个是如何跟用户做更好的共创。

大模型

MiniMax 发布视频模型 abab-video-1，虽晚于 Sora 但解决了更难的技术问题

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号