OpenAI 成功推进人工智能发展，兴趣驱动探索成关键

aixo 2024-09-04 10:33:29

2024-09-04 10:33:29

文章摘要

通过兴趣驱动的探索，而非单纯的目标导向，成功推进了人工智能的发展。

• 内部通过探索实现等突破

• 创新需要在目标导向和兴趣探索间找到平衡

• 离开继续研究开放性系统与AI对社会的影响

我们被倡导要想明白自己的目标是什么、并做出计划。然而，两位人工智能研究者却认为，这只适用于普通的小愿望。

一旦涉及过于高远的、不确定能否实现的目标，比如打造AGI（通用人工智能）、登月计划等等——那么根据兴趣进行自由的、开放性的探索，才更能实现想要的。他们把这一观点写成了《为什么伟大不能被计划》一书。

在这本书出版的2015年，成立，它一开始就确定了实现AGI的目标。九年间，取得的巨大成功，似乎证明了人工智能界是一场“目标导向者”的胜利。“看似是目标导向的，但实际上在内部，它有很多有趣的、开放性的探索。”本书作者之一肯尼斯·斯坦利（）告诉极客公园。

2015年，他任美国中佛罗里达大学计算机科学系助理教授，和前博士生乔尔·雷曼（Joel ）一起合著了该书。第二年，他们进入产业界，加入Uber AI团队。2020年，他们又一起加入了，肯尼斯担任开放性研究团队负责人。

的是他们这本书的推崇者。他曾在一个公开场合提到，训练模型时会设定指标，指标的上升让人开心，“但对于找出一个新的研究范式，就不起作用了”。受书中观点启发，他愿意尝试更多新奇性探索，“我们愿意耐心等待数月、数年，大多数时候它（探索）并不起作用，但当它起作用的时候、效果惊人地好。”

加入内部，肯尼斯和乔尔看到开放性探索如何塑造了的成功。例如本是一个意料之外的项目，它曾是内部几大方向中最边缘的；碰巧撞上了谷歌的架构；而Dario （前研发副总裁、现 CEO）提出 Law（缩放定律）是为了测试模型安全性、而非涌现智能等等。

随着2022年底GPT-3.5发布，全球人工智能行业开启了激烈竞赛。在二人看来，AGI仍然是一个遥远的、而非近在咫尺的目标，仅靠 Law这个“踏脚石”还不够。在这种情况下，开放性探索非常重要——而目前行业极具收敛的目标和计划、以及激烈的竞争，反而可能让研究走进死胡同。

即便也面临挑战，乔尔感觉到，一种紧张的氛围开始在内部出现，开放性探索的空间也在缩窄。2022年，他们离开了。随着人工智能越来越强大，他们希望更多研究一些开放性命题，比如AI会如何影响人类和社会、如何从哲学角度看待AI等等。

目前，乔尔加入了一家研究虚拟生命的公司，而肯尼斯创办了基于开放性系统的社交网络Maven、并获得了Sam 的投资。他们都在开放性探索的路上继续前进着。

以下为极客公园与肯尼斯、乔尔的对话实录，经整理后发布：

《为什么伟大不能被计划》一书的中英版|图片来源：受访者

一、看似是“目标导向型”的成功，实则是“开放性探索”的成功

极客公园：先从这本书的起源聊起，我很好奇你们十年前是怎么想到提出“为什么伟大不能被计划”这个观点的？你们最早研究人工智能的“开放性系统”，做了图片孵化器、机器人迷宫等实验，好奇哪些事实让你们觉得这个观点是成立的、并且可以应用到除了人工智能以外的其他领域？

：最初的想法来自于人工智能领域的研究，也就是我们所说的“开放性系统”（Open-）。这种系统早已存在，比如生物的演进，在几十亿年中，从单细胞进化为各种各样的动物。又比如简单的发明创造，我们可能花了数千年，才创造了一个轮胎、空间站和计算机等等。

作为历史学家和计算机科学家，我们希望用算法打造一个“开放性系统”，想了解它的工作原理，怎么不断创新、产生非常有趣的东西。所以我们做了图片孵化器网站。这个AI系统没有任何目标，人们随机在上面将不同图片进行“繁殖”，这些图片会构成类似生物学分支树的关系。

虽然每个用户都是从乱涂乱画开始的，但渐渐我们看到了一些熟悉的、可辨认的图片，比如蝴蝶、头颅、行星、汽车等等。我们进而得出一些有意思的洞察，比如你孵化出了一张酷似车的图片，但你最初并不是以此为目标的。而如果你以此为目标，你根本得不出这张照片。这是矛盾之处。遵循这样的原则，我们提出了基于新奇性探索、而非目标驱动的搜索算法。

最后我们发现，这不仅适用于算法领域，也适用于个人和机构。每一个个人和机构都会设定目标，但这种目标驱动并不总是对我们的创造和发明奏效。Joel和我觉得这个过程非常重要，值得公开说出来。我们试图找到相关信息、并进行多次对话，这就是我们这本书想法的来源。

极客公园：可否理解为这本书的核心观点是，无论在算法、个人还是组织层面，面对一个更遥远的目标，制定计划不如自由探索有效？

Joel：一般来说，普通的做法是我们树立一个目标、制定计划。但我们是不制定目标、只是去探索新奇的东西。比如迷宫里的机器人，如果给它制定走出迷宫的目标，那它可能很难走出这个死胡同。但如果不告诉它去哪里、而是让它自由探索，它会更容易走出迷宫。

肯尼斯和乔尔做的图片孵化器网站，从乱涂乱画中出现了一些熟悉的、可辨认的图片图片来源：受访者

极客公园：我注意到，在你们刚出完这本书不久的2015年，成立了。这家公司从创立起就确定了一个非常伟大的目标，那就是实现AGI，它的每个步骤都是围绕这个目标进行。今天我们看到，似乎取得了成功。所以我想问，在你们这本书出版后的十年里，的故事是否反而证明了“目的驱动模式”的成功？

：非常好的问题。我认为非常重要的一点就是要注意到，虽然取得了一定的进展，但还没有取得AGI的成功。另外，我们也要意识到，公司往往会向公众讲述目标，但这其实是它们的一种叙述的手段，这并不意味着企业内部就是这么推动工作的。

如果你去看的幕后，你会发现它们不仅仅是目标导向的，它们也有很多有趣的、开放性的探索。实际上，就是这样一种开放性探索，它是在一个意料之外的项目。我并不认为的工作人员最早就设立了要做这个项目（的目标），或者说预见到了它能取得如此巨大的成功。它们只是在探索过程中发现这个项目非常有意思，然后一步步更新迭代才有了今天的。

我们书中也提到过，创新究竟该如何推进呢？其实就是我们从有趣的一些想法开始，那究竟它是否会将我们引导向最终AGI的成功呢？其实这并不一定，但这是非常重要的一步，它们最终都有可能带来革命性的变化。

另外，它也能实现其他一些重要的成就，比如吸引更多的投资。我们知道GPT-2并没有带来巨大的革命性变化，但我们仍然要尽可能地宣传，才能吸引更多投资来发展GPT-3、GPT-4，并最终向AGI的目标前进。就是这么做的，这正体现了我们书中的观点。

Joel：看上去是一个目标导向型的成功，但其实刚成立的时候，内部有尝试很多不同的发展方向。比如当时他们非常看重强化学习，包括视频、游戏的强化学习，为此内部做了很多尝试。

而且GPT背后的核心技术是架构，这是由谷歌推出的，所以也是在谷歌这样的巨人的肩膀上不断发展的。如果回顾10年前、20年前、30年前、40年前，没有这么多“踏脚石”的情况下，也不可能取得这样的成功。

极客公园：你们定义了看似是目标导向、但其实是自由探索式的成功。内部人士曾跟我们说，铺垫GPT 3.5的几个“踏脚石”都是随机碰撞出来的，比如聊天机器人曾是内部最边缘的项目、碰巧撞上了谷歌的架构、而Dario提出 Law也不是为了智能涌现而是想测试模型是否安全……这是否跟你们了解的情况接近？

Joel：是的，这些随机探索的确是非常重要的。尤其是，它很早就开始推进 Law等尝试，并且不断在做选择，这是非常正确的。

：的确探索很多时候是随机的、根据兴趣进行的。但Dario提出 Law，这不仅是一个随机的探索、这其实也是一个目标导向性的做法。

这背后是团队从自己的兴趣出发、做了很多尝试，想要找到解决方案，最终提出了 Law这个解决方案。这某种意义上也是一种目标导向。

极客公园：所以开放探索和目标驱动并不是彼此对立的，而是可以统一和融合的？

：的确两者是可以并存的，能够从一方转向另一方。但是在我看来，这其实也是一个非常困难的问题。什么时候该进行转向？什么时候是目标导向、什么时候是兴趣导向？这非常微妙，很难去找到最佳的转变时机。

极客公园：你们能够看到的内核其实是一个开放性探索的组织，这是当初吸引你们加入的重要原因吗？

Joel：哈哈，有许多原因。一个最主要的当然因为是AI领域的前沿公司。另外，它的确一开始就是一家开放性探索的公司，虽然它们肯定有一些目标导向的元素存在。这与我的个人兴趣也是相关的。所以确实很难拒绝这样一份工作。

极客公园：那么Sam有看过你们这本书吗、他是否认同你们提出的开放性探索观点？这是他招募你们进入的原因吗？

：Sam非常喜欢我们书中的想法，我相信他是在观看了我关于这本书的演讲时接触到这些想法的。他曾在公众场合提到，他受到了这本书的一些想法的影响。Sam对这些想法是非常包容和开放的，我觉得他暴露在这些想法当中、他认为这些想法非常有意思。

当然，我在也不仅仅是因为Sam，内部很多人都有开放的想法。比如Jeff Clune（前研究团队负责人），他在我们之前加入。他也觉得，开放性探索是一个有趣且值得投资的领域。我们在那个时候达成了共识，所以我们被雇佣了。

在我看来，这本书并不是的工具书。但我相信，这一文化确实对他们有影响，开放性探索是非常重要的。

极客公园：Ken当时是开放性探索团队的负责人，当时对你们的期待是怎样的？有给你们制定了怎样的目标吗？

：我们面临的挑战在于，几乎任何一家公司都会感兴趣设定目标。但如果我们探索的一些想法，并不完全是目标导向的、甚至会背离目标的话，我们肯定会面临一些沟通上的挑战。这有一些复杂，因此在日常的工作中，我们需要取得一个平衡。

有时候很难理解我们来自哪里、雇佣我们干嘛。他们可能会非常奇怪，觉得我们做的是非客观性的一些东西。不过最终他们意识到，对于推动AGI来说，这些工作是非常有用的。这已经超出了传统团队的认识。

Joel：这里面分为两部分：一个层面是关于组织的架构，很多人会困惑我们的工作，所以我们要跟他们解释我们在做什么，并找到我们工作跟AGI目标的关联度；另一方面是我们实际工作的开放性，要创造新的东西。

就像Ken说的，我们需要在公司内部找到一种开放性的方法，既要让大家了解我们在做什么，也要新奇探索、取得进步，这两者的平衡是一种微妙的舞蹈。

极客公园：你们是否感受到，在开放性探索上，这样的初创公司可能比科技巨头做得更好？我曾听说，虽发明了架构，但没有率先做出GPT，是因为它的技术路线更目标导向——更强调（输入），因为它可以解决更多具体业务问题；而更强调（输出），因为它没有那么强的业务导向，更愿意像无头苍蝇一样做开放性探索，你们怎么看？

Joel：我的理解是谷歌也有这种对话模型，也是很领先的。谈到好奇、兴趣、技术能力、率先应用于大众等，我认为其中包含了不同的变量。谷歌是一个更大的机构，可能有更多的“橡皮章”、繁文缛节这些东西，而可能更开放。

：我只是想说，涉及到任何一个大机构的成功，都包含了很多要素。不过我有一点我同意，确实在探索方面做得更好、它有更大的意愿去冒险，而谷歌可能在这方面更加谨慎和犹豫，比如在公众面前展示技术，谷歌可能会慢一步。

这可以理解。因为谷歌作为一个大公司，在发布东西之前，需要做很多尝试和实验。他们更不愿意失败，它对于风险更有顾虑。但这并不一定是确定的，只是我们的看法。

我们看到，谷歌注重强化学习和各种方法，也注重强化学习、并在不同领域下注，最终它们都取得了成功。

极客公园：距离你们当时写这本书已经过去快10年了，中间你们还加入了、Uber等科技公司，经历了这些再看这本书，你们觉得书中哪些观点仍历久弥新？哪些需要变化更新？

：回头望，这已经是我们这本书出版的第九年了。关于建立目标，我们有过非常多的、激进的争论，但许多事情随着时间的推移得到了验证。

正如你刚才提到的一些例子，有些人可能会认为有些目标是有效的。但在过去十年的时间里，我们越来越发现，目标导向有时会让人感到困惑，会让你有盲点、抓不到其他机会、看不到更多的可能。我们认为十年后、甚至一百年后，这个观点可能都不会过时。

在每一章中，我们都引入了一些历史案例和引语，比如“行者无疆”——一个好的旅行者是没有固定计划的，他对于要到达哪里并不太清楚——我不确定中国的哲学家老子是否在几千年前提出了这种描述。这是一种哲学的观点、一种经验之谈，并不是有很多科学证据，有时候听上去是反直觉的、是一个离经叛道的东西。

社会中确实有一些问题，例如，整个社会的组织都在围绕目标推动，并且把“目标是非常重要的”这种文化意识强加给我们。以教育为例，老师根据考试内容教学、学生根据考试内容学习，这就是目标对教育的影响。在书中，我们强调了目标的影响是无处不在的，我们需要去挣扎往前走。

再次强调一下，我们认为“伟大无法被计划”这个观点，是不会发生变化的。如果我们的人生只是目标导向的话，将无法取得完整的幸福。这也是为什么我们这本书如此成功和受欢迎的原因。

二、沿着 Law、卷模型性能，可能会走到死胡同

极客公园：虽然你们反对目标导向，但似乎目前全球人工智能界的目标都非常收敛且明确，一是追上等公司、二是尽快实现AGI，你们怎么看这种现象？这种目标至上会是你们反对的吗？

：谢谢您的问题。我同意在目前的人工智能行业中，大家定了这两个宏伟的目标，觉得北极星就在那儿、我们要朝着那儿走。不过回到我一开始说的，企业往往会对外有一套说辞，但它们内部可能并不是这样做的。

我主要想谈一谈，我们到底离这样的目标有多远？如果说只差一个踏脚石、离得非常近，就像上世纪60年代制定登月计划的时候、已经有很好的技术基础，那么我们可以通过制定目标去实现。

但问题在于，如果我们还需要很多个垫脚石、离目标还很远，那设定目标可能会让我们陷入困境、无法前进。历史上有很多这样的例子。比如在2017年，我们听到有人说第二年就会有自动驾驶汽车上路，但其实不是这样。

因此，单纯采取目标导向的方法往往会无法实现目标，可能是因为目标设定的时间太早、或者太过雄心勃勃。很多人认为现在人工智能领域只差一个踏脚石，只需要扩大规模就可以了，这其实是过于简单化了这个问题。但在我看来，真正核心的踏脚石还没有被发现、我们并不仅仅差一个踏脚石。我们很可能正在陷入目标的陷阱和迷思之中。

Joel：的确我们现在处于一个荒诞的历史阶段，全球的科技公司都在追求AGI，这种过于聚焦的目标是人类革命性的时刻。但我们要知道，AGI的发展还要很长的时间。

现在许多人认为，只需要扩大规模、参数，有更多的数据和算力，就可以发展人工智能。这对我来说有些无聊，或者说有些无趣。这并不是最核心的踏脚石，我相信还有其他的路径和方法需要我们去探索。

极客公园：为什么我们离AGI不只是一步之遥、不只差一个踏脚石？你们做出这个判断的依据是什么？

Joel：我们到底距离AGI有多远，其实大家是有认知偏差的。就像自动驾驶一样，并不太清楚到底需要多少个踏脚石。我们唯一确信的是，如果有一步之遥的东西，你必须要在那里、你必须去做、必须去放大。

：最近有一个类比，GPT-3就像是一个孩子，GPT-4像是高中生。但实际上，更像是教科书中的知识，在某些方面，它可能超越了我们，而在其他方面，它可能不如我们。奇特之处在于，我们会感到某些东西非常接近了，但这不一定是AGI。

但我们也不清楚究竟还要等待多久。我们甚至可能需要一位爱因斯坦的出现，才能达到下一个台阶。

极客公园：这让我想到你们在书里提到，其实从单细胞到人类的进化过程中，重要的踏脚石不只是智力，还包括对称性等。那么对于AGI来说， Law带来的智能提升会是一个靠谱的踏脚石吗？它能支撑多久？

：智能这个词很容易让人困惑，因为它涉及许多方面。 Law遵循一些普遍的原理，但它也会丧失一些东西。比如在技术上，你必须将大量人类数据进行更好的压缩和训练，它不再是传统意义上的智能、而是不断提升的智能。我们最终可能会遇到一个瓶颈或死胡同、会在训练上遇到走不下去的时刻。

就像在不断扩大规模、增加参数，但它还是遇到了瓶颈（注：比如GPT-5处于难产状态）。这也是为什么我们需要新的踏脚石。

Joel：如果想要达到AGI那模糊的彼岸，有点像做一个赌注，很多明显的路径都必须要去尝试。因为AGI可能不仅来自AI，还可能来自数学、哲学和其他领域。

《神经语⾔模型的缩放定律》论文写道，随着模型⼤⼩、数据集⼤⼩和⽤于训练的计算量的增加，语⾔建模性能平稳提升图片来源：

极客公园：现在各大人工智能公司都在这一维度激烈竞逐，而你们在书里提到，竞争其实跟开放性探索相悖、因为它是极其收敛的目标。你们怎么看待现在人工智能领域的激烈竞争？

：这就是目标导向的悖论，它会使得我们更加盲目，对其他方法和路径视而不见。像、和这样的公司，它们存在激烈竞争，因为哪家如果落后了，就可能无法获得更多资金，公司会受到生存威胁。

在这种竞争中，大家唯一的目标就是活下来。公司更倾向于继续沿着既定路径前进、扩大规模。如果这时候尝试创新，会面临失败的风险、可能会被踢出局。所以创新往往会减少。我认为在这样的竞争环境下，很容易进入死胡同。

不过当这些企业遇到瓶颈时，他们可能会意识到需要转向、进行更多开放性探索。

极客公园：这跟很多人的看法相反，一般我们认为激烈竞争会推动模型智能水平的提升、加速AGI的实现，但在你们看来反而会适得其反？激烈竞争会弊大于利吗？

：是的，这可能有些反直觉。虽然竞争会引发“军备竞赛”，使得模型性能有所提升，但过度的竞争会减少开放性的尝试，使得创新更加聚焦和局限、无法取得真正的进展。

极客公园：说了这么久的开放性探索，那么对于现在目标和路径已经相对明确的人工智能企业来说，它们应该怎样才能做好这件事？你们对于开放性探索有没有一些建议？

：我们会发现，很多公司太早就建立了一套体系，并且非常目标导向。如果一些探索在测试中表现不佳，他们就会放弃研究。我认为这会减少开放性探索的机会，是非常不利的。

对于AGI也是如此。当前的架构可能还远远不够，甚至我们对神经网络的运作机制还了解得不够，目前仍有许多失败的案例。我们并不清楚究竟还差多少步才能实现AGI，因此我们需要多重的、开放性的探索。

在当前阶段，对于和其他公司来说，它们不仅需要改善现有的模型、更需要探索新的路径，这两件事需要同步推进。

三、离开，人工智能界还需要更多开放性探索

极客公园：不久前Ken接受了一个采访，提到你离开是因为“有一些沮丧、有一些顿悟”，我好奇你的沮丧、顿悟是什么？方便跟我们分享一下吗？

：让我想一想，我并不是说我对不满意，而是我越来越意识到，我对人工智能的影响存在一些担忧。现在有很多关于人工智能消极影响、安全以及文明终结的讨论，这都是很明显的一些问题。

我越来越感觉到，社会中存在一些对人工智能的不满情绪、人们感到越来越多的失落，大家会追问生命的意义究竟是什么？比如，未来机器人可能有数百万个非常好的想法，一秒之间就可以超越我们一生的成就、或者比我们个人多年的经验更具智慧，那么我们如何再去做有创意性的工作、并从中获得成就感呢？这是一个非常严重的问题。

我感觉我的工作，似乎在某种程度上加剧了人们的这种担忧和焦虑。因此，我想思考人工智能未来的发展方向、解决它深层次的问题——我们究竟该如何改善人工智能，使其更好地为人类服务，促进人类之间的连接，而不是加剧竞争？

这是我最近非常关注的问题，我认为需要进行开放性探索，我相信这对人类社会会更有助益。基于这样的原则，我成立了一家自己的公司，希望建立一种开放性的社交网络。

极客公园：你创立了Maven，它是一款基于开放性探索的社交产品，可不可以介绍下Maven是一个怎样的产品？为什么它能解决你提到的人工智能存在的问题？

：你可能也注意到一些社交媒体存在的问题，比如信息茧房、对立观点、不断争论的意识形态导向、甚至阴谋论等。那么这些问题从何而来呢？实际上，这是因为这些系统的质量有问题。

几十年前人们就曾说过，人们会产生各种各样的观点和内容，但很多内容是负面的或不好的。而现在的社交媒体过于关注内容的受欢迎程度。我们认为这种信息分发模式需要改进。

所以我创立了Maven，这是一个基于内容质量来推荐的开放性系统。人们打分、评价，去找到好的内容。这种客观的评价方式、而不是靠点赞排序，才能带来更好的内容。

极客公园：我注意到的联合创始人投资了你、Sam也投资了你，为什么Sam会决定投资你？他对你这次创业有没有提出建议？

：Sam的确投资了我的公司。我写完这本书之后，也想让开放性系统被更多人使用，于是萌生了成立自己公司的想法。从职业发展的角度，Sam给了我许多建议和见解。

从孵化投资人到的CEO，Sam自己的职业发展就是非常了不起的跨越。他给我的建议是，我们不一定要沿着一份工作、一条道路前进，我们的职业发展也可以非常多元化。这给我很大的启发。

极客公园：Joel离开的原因是什么呢？

Joel：主要是我的职业发展追求跟它不再完全契合。最初加入时，这家公司还处于比较基础的阶段，内部有机器人、人工智能等多个研究方向。然而，后来这家公司变得更加聚焦，我也注意到公司内部存在一些紧张的氛围，这对开放性探索有一定限制。

正如Ken提到的，我们需要考虑到AI对社会的影响、一些哲学问题、还有如何利用人工智能让个人更好发展等等，这些都是很有趣的研究角度。我希望能继续研究，而可能并不是发展这些兴趣的最佳场所。

离开后，我加入了一家研究虚拟生命（ life）的初创公司，现在还在继续从事开放性系统的研究。

OpenAI

OpenAI 成功推进人工智能发展，兴趣驱动探索成关键

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号