进入“Her”时代,对国内大模型公司意味着什么?
铺天盖地的话题围绕的春季发布会展开,市场没有等到GPT-5,但GPT-4o也足够让行业反复琢磨——进入“Her”时代,对国内大模型公司意味着什么?
用几个短小精悍的场景演示,让用户直观了解到了GPT-4o的多模态理解能力、几乎无延迟的反应能力,以及与人类相近的共情感受与表达能力,科幻电影《Her》中女性语音智能机器人的形象由此得到现实复刻。
成为“Her”,在技术上的震撼点主要来自于GPT-4o对多模态实时交互的反应速度有如此快的提升。例如,它对音频输入的响应时间最短可达232毫秒,平均为320毫秒,这与人类在对话中的响应时间非常相似。但在此之前,使用GPT-3.5和GPT-4的平均延迟分别为2.8秒和5.4秒。
在官网对这个变化背后的原因进行了阐释。此前,其音频模型(Voice Mode)是一个近似三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型再将文本转换回音频。
在这个过程中,模型智力的主要来源GPT-4(或GPT-3.5)会丢失大量信息:它不能直接观察音调、多个说话者以及背景噪音,也不能输出笑声、歌声或表达情感。
在GPT-4o上,训练了一个跨文本、视觉和音频的端到端新模型,这意味着所有输入和输出都来自同一个神经网络。这大概是这个多模态模型在理解与生成能力以及反应速度上都获得明显提升的核心原因。
事实上,不需要跨模态融合、由同一神经网络完成训练的原生多模态大模型,正是国内大模型创业公司正在试图突破的方向。因为它能带来所有GPT-4o目前展现出来的优势:低成本、高效率,这不仅是产品优化的基础,也是大规模商业化的前提。
但来自投资人视角的观察结论是,即便只是音频模型的端到端训练,目前国内大模型创业公司也都还未走到这一步。
除了基于原生多模态的模型变化,促成GPT-4o反应如此之快的另一个重要因素在于模型尺寸。并未公开表明过GPT-4o或是GPT-4 Turbo的参数大小,行业只是基于API调用价格以及传闻(例如GPT-3.5 Turbo可能是一个20B大小的模型,而GPT-3.5为175B),按照比例关系来推测过这些新模型的尺寸。
在此前提下,GPT-4o大概率是一个比1.8T更小的尺寸模型,而这种在保证模型能力的情况下变小、变快,甚至在某些维度上变强的工程化能力,正是难以被竞争者超越的“魔法”所在。
这也是国内大模型行业正在努力的方向之一。为了降低大模型的推理成本,行业理应压缩模型,而从 Law(规模法则)来看,这个目的只能通过“先变大、再变小”来实现,这样才有可能兼顾速度和性能。
至于如何像GPT-4o一样“在变小的同时变强”,这也是各家技术比拼的关键点。
据界面新闻记者了解,国内从事底层大模型研发的创业公司普遍都在关注这一技术方向,但各自的重视程度并不相同。例如,有的观点会认为率先做出万亿参数大模型、达到GPT-4时刻更重要,有的则会认为在研发的途中兼顾应用的成本与性价比同样重要。但无一例外的是,目前行业还没有呈现出太好的解法。
产品层面,来自国内大模型独角兽的产品中,Kimi(Kimi+)、万知、跃问等等,虽然已经具备一定多模理解与生成的能力,但更多还是聚焦于AI搜索引擎、AI专业助手等轻量级agent,在语音实时交互层面仍然无法达到的能力水平。
并且,在最新发布的海螺AI中加入了“小海螺”角色,功能在于提供实时语音对话服务,定位直接对标在语音交互上的能力。但根据公司的官方演示视频,“小海螺”无论在反应速度、表达方式,还是在音色、情感等拟人能力上,仍然有距离感明显的“AI感”。
因此,GPT-4o带给行业的技术质问其实是,在同等参数量级与性能水平下,能否做到跟它同样快?如果速度也能赶上,那能否兼顾其对音频、视觉和文本的多模态实时交互能力?
实际上,GPT-4o的降本能力体现到产品和商业化上,是扩大AI应用用户规模的前提。
对于免费开放的决策,已经在行业内被普遍认为是一个“正确路线”。前述投资人表示,“扩大用户base,让多模态大模型让用户更快、更简单地先用起来,这个思路肯定是对的。”
猎豹移动董事长兼CEO傅盛在发布会结束后谈论道,“发布应用恰恰说明了应用在人工智能领域大有可为,每一个创业者都应该去好好地做人工智能应用。”
不过,反过来看,发布GPT-4o而非GPT-5(或是GPT-4.5),还是给大模型技术遇冷的观点留下生存空间。
傅盛表示,“如果不计成本的累参数,提高所谓的大模型能力,这条路肯定是容易遇到困难的,目前看起来GPT-5.0可能还要难产一段时间。”
金沙江创投主管合伙人朱啸虎则对此发表了三个观点:第一,大模型的技术迭代曲线明显放缓;第二,开始卷免费,说明GPT的用户和收入增长都已经碰到瓶颈,不是深度绑定大厂的模型公司基本已经出局;第三,应用会迅速爆发,推理成本再降一个数量级就会普及出现AI时代的国民应用。
暂且不论大模型创业公司生死存亡的问题,GPT-4o的出现的确留下了两个矛盾信号:好消息是,关于在GPT-5可能遇到的瓶颈,国内底层大模型加速追赶的窗口期或许到了;坏消息是,在应用层上,目前所能打磨出来的用户体验,大概也需要国内创业者们花上好一阵时间来追赶。
此外,给行业留下了一个谦虚的“挑衅”是,团队指出,GPT-4o是其第一个完成这种端到端训练的模型,因此团队仍在探索其功能和局限性——这意味着未来历经迭代的GPT-4o,能力极限或许远不止于此。