OpenAI 实现目标 3,o1 模型将 AI 模型中的思维链推理推向新高度

aixo 2024-09-21 08:12:25
大模型 2024-09-21 08:12:25

o1的发布,直接带迈入新的台阶。

就在刚刚,Sam 自豪发文表示:虽然花了一些时间,但已经实现了第三个目标!

值得一提,这篇2016年的博客文章,作者是Ilya 、Greg 、Sam 和Elon Musk。

目标1:衡量我们的进展

目标2:打造一个家用机器人

目标3:构建一个具有实用自然语言理解能力的智能体

目标4:使用单一智能体解决多种游戏

八年后,真的把目标3实现了。

o1模型为什么如此重要?用Fixie创始人、AI研究员Matt Welsh的话说,原因就在于,它将AI模型中的「思维链推理」能力带给了大众。

推理能力直接内置于模型中,无需借助额外工具就能达到类似效果。我预计这将大幅提高人们对AI模型能力的期望。

然而大家很快发现了「华点」:一旦向o1询问CoT过程,就会收到「封号」警告。

这是为什么?

众网友由此猜测:o1可能并不是一个新模型,而是更小的模型与gpt协同工作,亦或只是提示工程。

如果公布完整的思维链,可能就会有人根据模型在思考时产生的推理痕迹进行训练,从而得到更好的开源模型。

因此,对o1的思考过程讳莫如深,藏得很好。

更绝的是,有人发现,o1背后的技术原理,谷歌也早就发现了。

遗憾的是,他们因速度太慢,再次被截胡。

谷歌也发现了,但更快

o1之所以在性能上实现碾压式飞跃,就是因为它首次在LLM中实现了强化学习和CoT,让LLM真正学会了思考。

但其实,谷歌一篇8月发表的论文,就发现了测试时计算比扩展模型参数更有效。

这篇论文,恰恰揭示了o1的工作原理。

论文地址:

而早在今年1月,谷歌和斯坦福的研究者就在这篇ICLR 2024论文中提出,思维链赋能,能解决本质上的串行问题。

论文地址:

就在昨天,谷歌首席科学家Denny Zhou发文表示:「LLM推理能力的极限是什么?天空才是极限」。

他cue到这篇论文,总结道:「我们已经用数学方法证明了,可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理token。」

这篇论文的核心思想也是说,只要给够LLM时间,通过一系列中间推理token去思考,它就能解决全部问题。

可见,谷歌在技术原理上早已达到很先进的程度,但并没有切实落地到产品上,因此才一再被截胡。

CEO锐评道:谷歌的研究水平是顶尖的,但模型却是落后的。

而且,她还cue到了谷歌不为开发者所喜的,简直是太扎心了。

具体来说,谷歌在8月的论文中提出,让LLM进行更多的「测试时计算」(test-time ),对于构建能在开放语境下操作、能实现自我提升的agent,是关键的一步。

在这里,团队重点研究了扩展「推理期计算」(-time )这个问题。

团队分析了扩展测试时计算的两种主要机制:(1)针对密集的、基于过程的验证器奖励模型进行搜索;(2)根据测试时得到的提示词,自适应更新模型对响应的分布。

结果显示,在这两种情况下,对测试时计算的不同扩展方法的有效性,很大程度上取决于提示词的难度。

基于此,团队提出了一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算,使测试时计算的扩展的效率提高4倍以上。

另外,在FLOPs一致的评估中,对于那些较小的基础模型已取得一定程度非平凡成功率的问题,测试时计算可以使其超越规模大14倍的模型。

这就可以看出,对比o1模型,这篇研究的结论几乎是相同的。

5月的论文则表明,只要允许根据需要生成任意数量的中间推理token,可以解决任何问题,LLM的推理没有极限!

不难看出,Denny Zhou等人所提出的「中间推理token」,与o1的核心技术是何其相似。

要知道,传统的模型的致命弱点,就是擅长并行计算,但不擅长串行推理。

而CoT,恰恰解决了这个问题。

在本文中,研究者将的计算过程与电路模型类比。

他们借用电路复杂性理论,定义了CoT[T(n), d(n), s(n), e(n)],其中O(T(n)) 表示 CoT 的执行步骤数,O(d(n)) 表示嵌入大小,O(e(n)) 表示指数部分的位数,O(s(n)) 表示有效位数。

传统的模型,只能解决AC0电路能解决的问题;但一旦加入CoT,几乎可以解决任何问题。

只要CoT步骤足够多,就能模拟任意大小的布尔电路,解决P/poly问题

也就是说,可以用数学严格证明,CoT可以让解决几乎所有能用计算机解决的问题。

利用CoT,可以模拟布尔电路中每个逻辑门的计算

在模运算、置换群组合、迭代平方和电路值问题上,都可以证实:CoT赋予了模拟任意电路的能力,从而能够解决电路值问题这个P完全问题。

正是这项工作证明,CoT为更强大的LLM推理提供了新的思路,CoT或将成为未来LLM发展的重要方向,而且很可能闪烁着AGI的火花。

为什么要隐藏o1的「思维」?

显然,谷歌在相关技术上并没有落后,然而还是被摘桃了。

而的后续做法,也显得聪明很多。

很多人才猜测:一旦开发者能访问完整的CoT,那他们很快会训练和微调出具有相似性能的开源模型。

因此,一直在严防死守,禁止用户看到o1的CoT过程。

The 也专门发文,解释了为何要隐藏推理模型的「思维」。

他们分析道,如今AI竞赛的竞争异常激烈,每个大型AI开发商都在密切关注着竞争对手,试图对对方的作品进行逆向分析或复制。

像这样的领导者,该如何保持优势呢?

The 总结道,发布o1展示的方法就是——通过隐藏模型实际解决问题的方式。

从o1-博客文章中可以看出,模型的关键更新就是使用「内部思维链」,将问题分解成更简单的步骤,然后再解决。

然而,这一关键的工作过程,并不会向客户展示。

o1模型展示出来的,是一个「模型生产的思维链摘要」,也就是说,在客户看到之前,o1的思维过程是被完全不同的模型重新编写的。

为什么要这么做?

的解释是,这样就可以仅限员工来「读懂」模型的思维,了解其运作方式。

不希望展示模型未经过滤的思想,因为指不定其中有什么不安全的想法。

此外,公司也希望可以监控模型,确保它不会产生不当行为,比如「操纵」用户。

而没有明说的一个理由,当然就是保持自己的竞争优势了。

这也说明,如果不被过滤思维链,o1-的表现可能会更好。因为这样的话,用户就能根据模型的思考过程来完善他们的问题,获得更多信息。

The 向发出灵魂一问:你们能否在发布完整版o1之前找到一种方法,来减少隐藏思维链带来的性能下降呢?

现在,许多开发者表示,自己对o1隐藏的思维链感到很恼火,因为这可能会让他们为看不到的东西付费。

注意,是根据模型处理和输出的token数量,向开发者收费的。

不过总的来说,在X上发帖的开发者中,大多数对o1-的评价都是积极的。

现在,o1在开发者中的良好反响,将谷歌等竞争对手的门槛再次提高了。

为什么的新模型如此重要?

MIT科技评论则总结道:的新模型o1之所以如此重要,正是因为首次它将AI模型中的思维链推理带给了大众。

作者James O'表示,到目前为止,LLM的大部分进展都是由语言驱动的。

这些LLM产生了能解释、分析和生成文字的聊天机器人或语音助手,但除了出现大量事实错误外,这些LLM还未能展示出解决药物发现、材料科学、编程或物理学等领域重要问题所需的技能。

但o1却进入了复杂推理领域。

可以说,o1的发布释放了这样一个信号:LLM将很快成为药物发现、材料科学、编程或物理学等领域人类研究者的得力助手。

大模型创业公司Fixie创始人、AI研究员Matt Welsh表示,这很重要,因为它将AI模型中的「思维链」推理带给了大众。

用他的话说就是:「推理能力直接内置于模型中,而不必使用单独的工具来实现类似的结果。我预计这将提高人们对AI模型能力的期望。」

当然,也有人对此论断泼冷水。

比如,伦敦帝国理工学院数学和计算机科学副教授Yves- de 就提醒我们,最好对将其与「人类水平技能」的比较持保留态度。

在他看来,很难对LLM和人类从头解决数学问题等任务的方式,进行有意义的比较。

还有AI研究者表示,如何正确衡量o1的推理能力,要比想象中更难。

如果它正确回答出了给定问题,就是因为它成功通过推理得出了答案吗?还是因为模型内置了足够的起始知识点,从而获得了帮助呢?

谷歌AI研究员François 也表示:「o1在开放式推理上,仍然存在不足」。

另外,o1这种主动推理的模型,价格也并不便宜。

通过API使用o1的开发者,需要支付比GPT-4o高三倍的费用(o1每100万输入token收费15美元,而GPT-4o仅需5美元)。

最终James O'写道:在研究人员和实验室有机会、时间和预算来深入研究o1、找到其极限之前,我们还无法知晓它的突破。

但毫无疑问,这预示着一场超越人类推理能力的模型竞赛已拉开序幕。

AI开发者都在「嫌弃」谷歌?

而相比起发布了o1的,明明有类似技术却被截胡了的谷歌,却显得节节退败。

最近The 就发文一篇,总结了为什么谷歌为何会在广大开发者那里受冷遇。

不管是各种公开的基准测试,还是Lmsys竞技场,谷歌的系列一直都是不落下风,经常是和GPT、并驾齐驱。

但奇怪的是,几乎没有第三方项目用到,这个名字除了出现在谷歌的产品中,其他场景下甚少见到。这背后是什么原因?

有媒体采访了几位开发者和谷歌员工,他们表示:无他,就是用起来麻烦。

其中一位开发者Aidan 是的创始人,这家初创公司致力于开发软件以提升AI模型的推理能力。

他表示,第一次用的API时只花了30秒,但用却花了4个小时。

「谷歌要求我设置云账户,还得弄一堆配置。更糟的是,谷歌系统的bug有时还逼我得倒回去重来。」

他还补充说,在AI领域,模型的能力是最重要的。如果这么麻烦的步骤能换来一个强得多的模型,那开发者们估计还是会趋之若鹜,爬也要爬过这些坎儿。

但实际情况显然不是这样的。除了一些极少数的特殊情况,谷歌的模型似乎只能排第三,跟在和的模型后面。

开发者怎么看

、和谷歌,这三家的模型在开发者心中究竟占据了何种地位?

企业软件创业公司在6月对750多名技术工作者进行了一次调查,发现仅有2.6%的受访者表示最常使用来构建AI应用程序,的占比更是只有2.3%。

相比之下76%的人使用,是绝对的大头。

虽然的份额不敌谷歌,但表示,的使用量自去年11月以来增长了四倍多。

追踪网站流量的也给出了类似的结果。

从6月到8月,的应用开发者页面获得了8280万次访问,而同期的页面的浏览量为840万。

此外,较小规模的轶事调查也提供了类似的证据。

上个月底,AI智能体初创的创始人 Saks询问了50名AI创业开发者,他们最常使用哪些对话式AI模型。

几乎所有人都表示,他们主要使用或的模型,没有人主要使用。

Saks对此并不感到惊讶,他表示,「我觉得在编码方面,不如其他模型。」

摸不着头脑

在2022年底推出,2023年初推出GPT-4,在LLM和对话式AI领域可谓占尽先机。

相比之下,谷歌花了将近一年的时间,加上一次重大重组,才在2023年底推出了能与GPT-4掰手腕的,并向开发者开放访问权限。

的落后仅仅是由于GPT系列的先发优势吗?并不尽然。

虽然的领先优势赢得了开发者圈中广泛的知名度,但后起之秀在今年也同样迎来了爆发性的增长。开发者们纷纷热情推广「平替」GPT,尤其是在代码辅助方面。

那么如何解释的遇冷?

开发者们最直观的吐槽,可能提供了事情的真相——虽然能力不差,但的确不好用。

去年12月,谷歌推出了AI ,旨在让开发者更容易使用;而 AI 则服务于大型企业的模型推广。

但这两种服务存在交叉,有时又相互矛盾,到底用哪个,就是很艰难的决定;而且提供的选项种类复杂、操作步骤多,让人摸不到头脑。

不仅如此,AI 还使用了与GPT和不同的查询发送方法,但后两者却共享类似的格式,这就更难吸引开发者们转向。

因此,经常可以在社交媒体和论坛上看到的吐槽帖,尤其是在推特上。

安全创业公司Xbow的AI研究员 Dolan-本月初的一条帖子就因此走红。

他详细描述了通过开始使用所需的繁琐步骤,引起了其他开发者的共鸣,很多人也纷纷加入吐槽大军。

有一句网友的总结,非常适合谷歌如今的境况:「当世界顶尖的工程师都在用和的模型时,你有什么资格让我们『去尝试别的东西』呢?」

参考资料: