RWKV 架构:挑战 Transformer 主流的创新之举

aixo 2024-10-13 11:07:48
大模型 2024-10-13 11:07:48

头图 |《小丑》

虎嗅注:RWKV创始人彭博是今天故事的主人公,在架构大行其道的当下,他一个人花了三年时间构建了RWKV架构,一种不同于架构的RNN架构。本文为虎嗅 《AI星火》系列 第 07篇稿件,《AI星火》系列聚焦AI细分行业的头部公司,通过记录AI创业者的故事,折射出他们对AI产业的共识与非共识。

文章摘要

彭博独创RWKV架构,挑战主流。

• RWKV架构重拾RNN,突出创新与效率。

• 彭博与罗璇携手推进RWKV发展。

• 面对质疑与资源限制,坚持非主流创新。

在见到RWKV创始人彭博之前,我也像一些人那样,怀疑过他是骗子或者“民科”。

他的公司元始智能员工在小红书发表的,诸如“走到死胡同”这样的“暴论”下面,评论区也不时会有对他们质疑和诋毁的声音,比如让他们拿出证据,证明他们自研的大模型架构RWKV6确实比强。

但彭博完全不在意这些声音,或许这就是成为另类的代价。——在诸多大模型公司都选择与相同的架构时,彭博用了三年时间走上了另一条路,将改写成RNN形式,保留了较低的时间空间复杂度。“给我十万张卡和100个小弟,我把干趴下。”彭博半开玩笑半认真地告诉虎嗅。

虽然他们走的是完全不同于的路子,但2023年春节,彭博收到了“竞对”的入职邀请。元始智能联创罗璇解释说,这能够说明他们确实有颠覆的可能性,而这个offer更像是一张用以招安的投名状,是对彭博一种另类的“认同”。

模型大师_大模型_模型大货什么意思

图片注:彭博收到的Open AI offer

但业内也有一些声音,认为RWKV架构与架构并没有本质上的区别。

另外,他们在融资进程上也难言“丝滑”,资本对他们的认可度并不高。彭博毫不避讳地告诉我,一些投资人对他们的判断也是“野生科学家”。

这导致了算力和人力资源限制,也影响了RWKV的硬指标。“现在大家scale得比较先进,炼的token也多,这方面我们相对还比较落后”,彭博表示,token多的模型先天有很大优势,但他也相信“等到token量上去了,他们就不能轻易黑我们了”。

少有人走的路

但相信RWKV路线的人,仍然存在。

比如某技术出身的知名投资人,在2023年底,这位投资人给予了RWKV团队千万元级别的种子轮投资。为了获得RWKV团队的信任,他专程去彭博楼下的咖啡馆聊了两小时,认购了1%股权。

让这样的知名投资人亲自登门拜访,并非创业者的常态。但彭博几乎足不出户,他需要足够的独处时间来“炼丹”。

在大多数都做做模型层的工作时,彭博却选择了模型底层架构的研究,他认为现在的AI公司专注的是机械智力的提升,而他同时也关注创造力和智慧的提升。前者指向大脑,有明确的通路(如通过合成数据);而后者最终指向心和意,路径却有待探索——但这将是真正有趣的问题,需要理解和创造灵性。

最初做这件“希望改变世界时间线”的事情,初衷是因为彭博想探索AI是否能写出“真正有力量”的小说,特别是架空小说。彭博用“愚公移山”来形容这项工作,“这其实是体力活,需要实现和测试大量细节。”

2020年,彭博开始做模型,起初是对架构的改进——引入显式decay和短卷积。

在优化机制时,彭博发现它可以写成RNN,引入RNN效率更高和形式优雅的优点后,效果仍然得以保持,通过这种方法,RWKV-2诞生了。

在2016年,AI学术界最流行的架构是RNN循环神经网络的变种——LSTM;但半年后,与其对标的横空出世,使得曾经大火的RNN成为落伍的少数派。因此,RWKV可以称得上是RNN的复兴。

2023年,彭博很快获得了开源社区的关注,LSTM之父Sepp 也转发RWKV的推文,并介绍这是一种无需使用注意力机制,就能达到性能的RNN架构,运行速度很快。

随着关注度的提升,对RWKV的质疑也接踵而至。有某头部AI公司技术负责人向虎嗅直言:“RWKV架构与架构并没有本质上的区别。”

在7月的一次见面交流时,为了改变我将信将疑的态度,元始智能联合创始人罗璇特地给我展示了研究RWKV架构并发表论文的研究人员,这包括:上海人工智能实验室、阿里达摩院、腾讯优图实验室等等机构的学者,他们在官网上展示了二十多篇在各种模态使用RWKV的论文。

学术界一直在探索将物理世界压缩复刻到一个大模型的世界模型,而彭博坚信,RWKV架构作为RNN,是通往世界模型的最合适通路。

彭博的逻辑是:因为RNN更接近人脑和宇宙的运作方式,RWKV是state大小恒定的RNN——正是固定大小的限制,迫使模型学到真正的东西,必须把世界压缩到它的state里去。就像在玩《星露谷》时,由于背包格数有限,玩家只能选择储存最重要的物品。

彭博从物理学的角度向我解释了RWKV的优势。在物理上,宇宙的下一状态只与上一状态有关,这是所谓的和,量子场论遵循这一原则。而是一种state(KV cache)不断增大的RNN,它每个字都要和前面的字比对一遍,这相当于“超距作用”,不符合我们这个宇宙的物理。因此,在彭博看来RWKV更加接近这个世界的本质。

彭博甚至更激进地表述:我们目标是做真正的智能,现在可以用混合模型作为过渡方案,以后一定是纯RWKV。

而能做成这件事的信心,除了以上的优势外,“运气也很重要”,彭博自认为一向是个运气挺好的人。

跳出循环

出乎我意料的是,彭博身上并没有我所假设的——那些恃才傲物的刻板印象,他多次向我强调他其实是个谦虚和谨言慎行的人。例如,当有投资者问到RWKV目前的弱点和缺陷,他会直说,并给出解决改进方案。他也告诉我:“现在的算力和人力资源限制,在一定程度上影响了他证明RWKV架构的先进性。”

这样的资源限制,是因为他们得不到太多来自资本的支持。

虽然在2024年的奇绩创坛路演上,陆奇曾用“受北美尊重的公司”来介绍他们,但大部分时间他们并不是风投的宠儿。

几乎每次见投资人,彭博都需要花费很长时间去解释RWKV,罗璇感觉“他们好像来学习”一样,学完之后,可能还会有人说被骗了,“这就是个民科”。很多投资人不敢投,是因为他们也看不懂这些大模型的底层技术,另外在大多数人都选择路线时,投资人对于RWKV这样非主流的路线更为谨慎。也会有一些来自主流路线的声音,干扰他们的判断。

而彭博也不会过度花时间去向投资人解释,拉齐认知。因此,彭博选择只在自己家楼下见投资人,这也是一种筛选机制——“如果一个投资人要我过去见面才肯投的话,那说明他不懂我们在做的事情。”

在对冲基金工作过的他,很清楚这样的投资逻辑: 大家追求风险较低的头部路线,有大佬或团队履历背书更佳,这样可以有较为稳定的退出策略。

因此他也十分理解这些投资人的选择,“毕竟有认知有魄力的投资人是少数”。

但大模型研发却需要巨量的资源,我粗略算了下,现在十万张GPU大概需要两百亿人民币。算力和人力资源是摆在彭博眼前的首要限制。“如果我们算力上去了,就很容易证明自己了”。虽然RWKV在一代代迭代下越来越强,但“在算力不够的情况下,有些硬指标确实是不好做的。”在大家都要看硬指标的情况下,难免会陷入被动的循环。

在我表达这样的循环有些可惜后,彭博对此却非常平和自洽:“我觉得没有可惜的,这就是创新者的考验。你选择了更难的道路,就要承担这样的事情,如果你应对不了,就不要创新了,我觉得是很合理。”

彭博认为,时间是站在RWKV这边的。目前资源的限制,会影响大模型的训练,但不会影响RWKV的迭代速度,反而可以成为他的动力:“以小搏大,更好玩。既然要做大事——构建人类所有AI模型的基础架构,就不妨证明自己有能力在任何环境把它做出来,这在后世看,只会更有戏剧性。”

非共识的相遇

为了做这样全新的架构创新,必须有足够的独处空间。彭博几乎没有参加过任何公开活动,因为他有一个关键帮手——元始智能联合创始人罗璇。

罗璇就像美国大片里永远陪伴在男主角左右的靠谱配角一样,充当彭博代言人的角色,频繁出没于各种科技活动现场,积极布道RWKV架构。

罗璇追随彭博,是因为他认为彭博是天才,“他似乎是生来就要做这件事情的”,而彭博认为他只是“很擅长看到其它人难以看到的角度”,他会用更高的视角看待AI与人类的关系。

见面之后我发现,一头长发酷似艺术家的彭博,远比我想象中要鲜活得多。在工作之余,他也会玩《崩坏:星穹铁道》,关注社会和人心,在今年还开始了情感关系咨询的“新业务”。

而在听罗璇讲述了彭博的故事后,我逐渐开始理解罗璇:彭博6岁从三年级读起,16岁参加高考,他的第一志愿是南大物理系,但最终高考分数超出广东省清华分数线40分,在南大入学后,彭博很快就以全奖奖学金转学去了香港大学。

没有选择计算机系的原因是:感觉不需要专门学。在大学任教的父母都认为计算机编程是未来的方向,因此从六岁时彭博就开始写代码,在高中时就出版过游戏编程的书籍。

2006年,彭博在香港大学毕业后去了当时全球最大的外汇对冲基金,做量化模型,并在后来成为其中的几位基金经理之一,在二十多岁管理六千多万美金。

2013年,彭博从香港回到深圳,开始智能硬件创业——禀临科技。2019年,他观察到市场需求,开始做没那么智能的全光谱灯,知乎上也有人戏称彭博为卖灯泡的。

这时还在天猫精灵AI Lab的罗璇,发现智能音箱是一个当时仍然不成立的故事,于是开始了物流机器人创业。

随后疫情来临,公司销量受影响,彭博保持公司运作,专心投入AI模型底层架构的研发,RWKV架构的诞生之路也由此开启。而罗璇所在的行业也受疫情影响,他开始投身组织、参与黑客松活动——用编程解决实际问题的线下活动。

在一次罗璇组织的黑客松上,他跟彭博第一次见面,两个人的命运也由此交汇。

见面时彭博告诉罗璇,他可能是实现AGI的最佳人选——那时他已经独立做了RWKV-1到RWKV-4,并在海外有了不少拥趸。罗璇之前也见过不少天才,但彭博是天才中比较有意思的那类,虽然罗璇当时觉得彭博的说法有些神经病,但他非常认同彭博所做的事情和底层逻辑,于是决定加入元始智能。

而彭博选择罗璇的原因也非常简单:罗璇能够帮彭博做很多他没法分心去做的事情,而且做得不错,两个人非常互补。

“我们正在走向一个正确的非共识,而且这个非共识绝对是没有共识。”罗璇这样形容他加入元始智能后的感想。

“漫长的路,自己选的,自己走。”未来彭博会按照计划,一代代迭代,去解开这个死循环。他说未来的RWKV8会是一个非常有意思的东西。

“你认为人与人本质区别是什么?”

——在交流的最后,善于从本质出发的彭博问我。

“是认知”,他告诉我:“我只能说我后面做的方向是他们做梦也想不到的。”