自动驾驶与人形机器人:从工厂到 B2C 的应用之路
01 自动驾驶与人形机器人
Q:人形机器人的第一个落地场景是什么?
:很多人可能会想着让机器人去洗衣服、做家务什么的,但我觉得那会很晚才实现。我不认为B2C是个好起点。
我认为最好的第一批客户就是公司自己。可以先在工厂里使用它,比如做一些物料搬运的工作。你可以自己先孵化它,然后第二步再去做B2B。你可以去那些有大型仓库的公司,帮他们处理物料、签合同、设置围栏,做所有这些事情。等你在多家公司验证过后,我觉得那时才能开始进入B2C应用领域。我相信未来我们会看到B2C的机器人出现,比如像宇树科技推出的产品。可能还会有一些人在这些平台上建立一个生态系统。总之,最初肯定还是会涉及大量的物料搬运,逐步向更具体的应用发展。
Q:你如何看待现在自动驾驶的能力发展路径?
:我曾在自动驾驶领域花了大约五年的时间。我觉得自动驾驶其实和AGI在某种层面上是相似的,而且我觉得我们在自动驾驶方面已经触及到了一点AGI——现在一些自动驾驶已经可以做到带你在某个城市里随意地逛了。然而,它还没有实现全球化。
最近自动驾驶有个趋势,就是向端到端深度学习的转化,用神经网络逐步取代整个系统栈。像这样的端到端系统,在大约10年内,可能就是一个完整的神经网络了。视频流输入神经网络,最后直接输出控制指令。这种端到端驾驶,只是模仿人类的行为,用很少的监督数据去训练一个庞大的神经网络。对于几亿个参数来说,这种信号太少了。所以,这些中间层表征可以帮助开发各种特征和检测器,让端到端部分变得更容易。
Q:人形机器人有什么是可以转移到自动驾驶的吗?
:其实,我觉得车在自动驾驶中基本上就是个机器人。很多人认为特斯拉只是一家汽车公司,但它其实是一家大规模的机器人公司。规模化本身也是一个完全不同的变量。他们不是在造单一的产品,而是在造可以制造产品的机器,这完全是两回事。从汽车到人形机器人的转变其实没那么难。早期版本的机器人甚至以为自己是辆车,因为它用的电脑和摄像头跟车完全一样。特别有趣的是,我们在机器人上运行的是汽车的算法,而它却在办公室里四处移动,试图识别可驾驶的空间,但实际上它面对的是步行空间。虽然有些细微的调整需要做,但基本上,它在开车的环境里运行,实际上只是在行走。
虽然目前会缺少数据,但其实在智能方面,有很多可以转移的东西。不仅是具体的神经网络,还包括整个方法论、团队,以及所有的协调和大家使用的方法。
Q:你认为相对于未来,现在的机器人技术里缺少了什么关键技术?
:在人形机器人这种形态中,下半身的控制可能不太适合通过示范来进行模仿学习。因为下半身涉及很多像倒立摆控制这样复杂的力学问题。而对于上半身,我觉得可能需要更多的远程操作、数据收集和端到端的处理。
02 AI的现在与未来
Q:你怎么看待数据壁垒以及规模进一步发展的成本问题?
:首先我不认为神经网络架构在从根本上限制我们了。以前是一种瓶颈,但现在它已经不再是瓶颈了。现在我们更多地在讨论的是:使用什么是损失函数?数据集在哪里?这些问题几乎成为了瓶颈。
这不再是一个基于你想要它变成什么而重新配置的通用组织。这就是为什么许多研究已经转移到了这个领域。很多公司和其他应用这种技术的企业不再怎么考虑的架构创新了——它在过去五年里没有太多革命性的变化,大家现在已经把它视为理所当然,直接使用并进行训练。现在,大部分的创新都集中在数据集和功能细节的优化上。这是目前行业内活跃的讨论和改进领域。
现在,很多工作都在语言模型(LMS)上进行。而互联网数据并不是我们理想中的训练数据。我们真正想要的,是更接近人类大脑中的“内心独白”那种数据——当你在解决问题时,你的大脑会产生一系列思维轨迹。如果我们能得到上亿条这样的数据,类似于AGI的想法,那我们就能取得很大进展。但目前我们还没有达到这个水平。
所以,现在很多工作都围绕着互联网数据展开。这些数据虽然不是完美的,但已经非常接近,因为互联网上有足够的推理痕迹和丰富的知识,而的作用就是让这些数据得以有效利用。
我认为,接下来很多工作将聚焦于如何将数据集重构为更类似于“内心独白”的格式。合成数据的生成在这方面能提供很大帮助。
有趣的是,当前的模型在很大程度上帮助我们构建下一代模型。它就像在攀登楼梯,一步步向前推进。
Q:你认为合成数据有多大用处,或者说能带我们走多远?
:我认为合成数据的确是我们进步的关键之一,但一个常见的问题是,模型在生成内容时可能出现“坍塌”现象,输出变得单一。
比如,让讲笑话时,它可能只会重复三四个笑话,缺乏足够的变化。这种“熵”降低现象表现在单个结果上并不明显,但从整体来看,模型的输出会失去多样性和丰富性。
如果你没有保持这种数据的随机性和多样性,你就会得到一个贫瘠的数据集,失去了原有的活力。这种问题在表面上不易察觉,但实际上它会极大影响模型的性能。因此,在生成合成数据时,你必须非常小心,确保数据集中保留足够的熵。
Q:你认为我们从这项研究中对人类认知了解了什么?
:总体而言,这两者还是有很大差异的,但确实有一些相似之处。例如,在很多方面比人脑更高效。它们之所以还不如人脑,主要是因为数据问题——这算是一个大概的解释。
比如,在记忆序列方面比人类强多了。你给它一个序列,它可以在前后进行操作,记住并完成整个序列。而人类,只看一遍是记不住的。
所以在某些方面,像这样的模型,尤其是在梯度优化上,可能比大脑还要有效。尽管它们还不完美,但在很多认知任务上,我认为它们有很大的潜力。
我觉得人类大脑有很多限制。我们的工作记忆非常小,而的工作记忆要大得多,并且这种差距会持续扩大。它们是更高效的学习者。大脑在各种限制下工作,比如不清楚大脑是否使用反向传播,也不知道那会如何运行。大脑是一个非常随机、动态的系统,受环境和其他因素的制约。所以,我认为我们现在的技术,潜力上比大脑更强,只是还没完全到达那个水平。
Q:未来随着时间推移,人类会怎么样和AI系统结合?
:我们其实已经在某种程度上融合了。问题在于输入输出的瓶颈。但大多数情况下,如果你拥有这些模型中的任何一个,你已经在使用它们了。或许未来,通过某种形式的融合可以解决未来与AI或其他系统的潜在冲突。我觉得这有点像大脑的外层皮质。我们是在新皮层上继续构建。只是这次,它是在云端,而不是在我们头脑里,但本质上,它是大脑的下一层。
Q:你认为未来的模型会是什么样的?
:我觉得模型可以小到让你意想不到。现在的模型浪费了很多容量在记住一些不重要的东西上,这是因为我们用的数据集没有整理得很好。我认为这种情况会改进的。我们需要做的是找到认知的核心部分,我相信这个核心可以非常小。它只需要能思考,如果需要查找信息,它知道怎么用不同的工具来获取。
我觉得10亿参数就够了。我们有可能做到这一点。模型可以做得非常小。这是因为蒸馏技术很有效。蒸馏就是用一个大模型或者大量的计算资源去训练一个小模型,你可以把很多功能压缩到一个小模型里。
也许这个未来不是一个单一的模型,可能是并行的一组模型。你能从并行处理的优势中获益。我觉得公司在某种程度上也应该强调工作中的并行化。不过,公司存在的层级结构是为了有效地组织信息。
所以,我认为未来大模型的工作模式会像一个「大模型公司」。你会有各种不同能力、专注于独特领域的模型。这将类似于公司中的不同角色,比如程序员和项目经理,他们并行工作并进行协同计算。模型们会形成一个生态系统,里面有专门的角色和生态位。问题会根据难度自动上升到不同部分。
因此,也许CEO就像一个非常聪明的云模型,甚至可能是开源模型或其他类型的模型。这种方式可能会很有趣。
Q:你离开了,开始从事教育工作。为什么会做出这样的决定呢?
:我觉得现在AI领域有很多活动,很多都是想取代或替代人类的,这让我感觉有点像把人排除在外了。
我更关心的是如何通过AI协助人类。我不希望未来人们只是被自动化取代,我希望人们能够变得更强,更出色,比现在更好。如果一个人有一个完美的全科导师,他们能走多远呢?但如果人们能有一个完美的学习安排,他们可以走得非常远。我们看到一些有钱人大概率有私人导师,他们的确取得了很大的成就。所以我希望通过AI,达到接近这种效果。
我觉得学习就像去健身房一样,是对大脑的锻炼。去健身房本身是很有趣的,虽然需要努力,但也有很大的回报。你在各方面都能感觉更好。我认为教育也应该有这种感觉。所以当我说教育不应该只是有趣的时候,我指的是它应该有挑战性,也应该带来一种特别的乐趣。在一个后AGI的世界里,我希望人们能像去健身房一样经常去「学习」,不仅是身体上的锻炼,还有精神上的。这是我们所向往的目标,高教育水平就是这种理想的体现。