受线虫启发的全新架构,实现 SOTA 性能,超越 GPT 基础模型

aixo 2024-10-02 12:11:40
大模型 2024-10-02 12:11:40

机器之心报道

机器之心编辑部

一个受线虫启发的全新架构,三大「杯型」均能实现 SOTA 性能,资源高度受限环境也能部署。移动机器人可能更需要一个虫子的大脑。

在大模型时代,谷歌 2017 年开创性论文《 Is All You Need》中提出的 已经成为主流架构。

然而,刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 AI 却走出了不一样的路线。

AI 表示他们的目标是「探索构建超越生成式预训练 (GPT) 基础模型的方法」。

为了实现这一目标, AI 推出了其首批多模态 AI 模型: (LFM)。这是基于第一原理构建的新一代生成式 AI 模型,其 1B、3B 和 40B LFM 在各个规模上均能实现 SOTA 性能,同时保持更小的内存占用和更高效的推理。

AI 后训练主管 在 X 上表示,LFM 是他职业生涯中最自豪的版本 ,LFM 的核心优势在于它们能够胜过基于 的模型,同时占用更少的内存。

神经网络芯片_神经网络_神经网络处理器

有人表示,LFM 是 的终结者。

神经网络处理器_神经网络芯片_神经网络

还有网友盛赞 LFM 是游戏规则的改变者。

神经网络芯片_神经网络_神经网络处理器

更有网友认为「可能是时候放弃 了,这种新架构看起来很有前途。」

神经网络处理器_神经网络芯片_神经网络

AI 发布三款模型

LFM 系列拥有三种不同的尺寸和变体:

SOTA 性能

LFM-1B 与同等规模模型的比较。LFM-1B 在各项基准测试中均取得最高分,成为该规模下最先进的模型。这是非 GPT 架构首次显著优于基于 的模型。举例来说,LFM 1.3B 在第三方基准测试中优于 Meta 的 Llama 3.2-1.2B 和微软的 Phi-1.5。

神经网络处理器_神经网络_神经网络芯片

LFM-3B 实现了令人难以置信的性能,在与 3B 模型、混合模型和 RNN 模型的比较中名列第一。在多个基准测试中也与 Phi-3.5-mini 相当,同时规模小了 18.4%。可以看出 LFM-3B 是移动和其他边缘文本应用的理想选择。

神经网络处理器_神经网络芯片_神经网络

LFM-40B 在模型大小和输出质量之间实现了新的平衡。它在运行时可以激活 12B 参数,其性能媲美更大的模型,而 MoE 架构可实现更高的吞吐量,并可在更具成本效益的硬件上进行部署。

神经网络_神经网络处理器_神经网络芯片

内存高效

与 架构相比,LFM 占用的内存更少。对于长输入尤其如此,因为基于 的 LLM 中的 KV 缓存会随着序列长度线性增长。通过高效压缩输入,LFM 可以在相同硬件上处理更长的序列。与其他 3B 类模型相比,LFM 占用的内存最少。举例来说,LFM-3B 仅需要 16 GB 内存,而 Meta 的 Llama-3.2-3B 则需要超过 48 GB 内存。

神经网络处理器_神经网络芯片_神经网络

LFM 真正利用了上下文长度

下表比较了几种模型在不同上下文长度下的表现。

神经网络处理器_神经网络_神经网络芯片

这种高效的上下文窗口首次在边缘设备上实现了长上下文任务。对于开发者来说,它解锁了新的应用,包括文档分析和摘要、与上下文感知聊天机器人进行更有意义的交互,以及改进的检索增强生成 (RAG) 性能。

这些模型不仅在原始性能基准方面具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从金融服务、生物技术和消费电子产品领域的企业级应用程序到边缘设备的部署。

用户可以通过 Chat 或 AI 等访问。

如何超越生成式预训练 (GPT)

使用了一种混合的计算单元,这些计算单元深深植根于动态系统理论、信号处理和数值线性代数的理论中。结果就是开发出了通用的人工智能模型,这些模型能够用来模拟任何类型的序列数据,包括视频、音频、文本、时间序列和信号,以此来训练其新的 LFM。

神经网络芯片_神经网络处理器_神经网络

早在去年, AI 就使用了一种名为 LNN( )的方法,与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 表明,更少的神经元(结合创新的数学公式)可以实现相同的结果。

AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整, 而不会带来传统模型相关的计算开销。可以高效处理多达 100 万个 token,同时将内存使用量降至最低。

例如,在推理内存占用方面,LFM-3B 模型的表现优于 的 Gemma-2、 的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在 token 长度扩展的情况下。

神经网络处理器_神经网络芯片_神经网络

虽然其他模型在处理长上下文时内存使用量会急剧增加,但 LFM-3B 占用的空间却小得多,因此非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。

AI 已将其基础模型构建为跨多种数据模态(包括音频、视频和文本)的通用模型。

凭借这种多模态能力, 旨在解决从金融服务到生物技术和消费电子产品等各种行业特定挑战。

AI 正在为多家硬件制造商的产品优化其模型,包括 、AMD、Apple、 和 。

AI 正在邀请早期用户和开发者测试他们的新模型并提供反馈。虽然目前模型还不完美,但公司计划利用这些反馈来改进产品。他们将于 2024 年 10 月 23 日在麻省理工学院举行正式发布会。

为了保持透明度和推动科学进步,公司计划在发布会前发表一系列技术博客文章。他们还鼓励用户进行红队测试,探索模型的极限,以帮助改进未来版本。

AI 推出的 LFM 结合了高性能和高效的内存使用,为传统的基于 的模型提供了一个有力的替代选择。这使得 AI 有望成为基础模型领域的重要玩家。

神经网络芯片_神经网络处理器_神经网络

AI :从一条小虫子开始

这家公开与 和其他大语言模型公司竞争的创业公司,由 MIT 计算机科学和人工智能实验室 CSAIL 孵化,成立于 2023 年 3 月。

2023 年 12 月,公司拿到种子轮融资 3750 万美元,估值达到 3 个亿。

投资人包括 联合创始人 Tom 、 联合创始人 Lütke 、 Red Hat 联合创始人 Bob Young,等。

MIT CSAIL 主任 Rus 是公司创始人之一,这位著名的机器人学家和计算机科学家也是该实验室的首位女性主管。

除了 Rus, AI 另三位联合创始人都曾是 MIT CSAIL 博士后研究人员。

联合创始人兼 CEO Ramin 在 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( )的首席人工智能科学家。

联合创始人兼 CTO 早在维也纳工业大学读书时,就和 一起研究过线虫的神经结构。

联合创始人兼首席科学官 Amini 曾是 Rus 的博士生。

神经网络处理器_神经网络_神经网络芯片

四位创始人(从左到右)CEO Ramin , Rus,首席科学官 Amini 和 CTO

2017 年, Rus 将 和 「挖到 」MIT CSAIL,Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。

Rus 指出,生成式 AI 在安全、可解释性以及算力等方面存在明显局限性,很难被用于解决机器人问题,特别是移动机器人。

受科研界的「常客」秀丽隐杆线虫的神经结构启发, Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。

神经网络_神经网络芯片_神经网络处理器

秀丽隐杆线虫也是唯一完成连接组()测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多。

秀丽隐杆线虫体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为。

它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。

近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作, Rus 等人设计出一种「液态时间常数网络」( Time- ):

一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。

如果说,标准的神经网络犹如一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重),计算的洪流每流经一层水坝,都要透过这些阀门,汇总后再奔向下一层。

那么,液态神经网络不需要水坝,因为,每个神经元都由微分方程 (ODE)控制。

这种网络的特点是时间常数可变,输出通过求解微分方程得到。研究表明,它在稳定性、表达能力和时间序列预测方面都优于传统模型。

后来, Rus 等人又提出一种近似方法,可以用闭式解来高效地模拟神经元和突触之间的相互作用( -form -time ),不仅大大提高了模型的计算速度,也显示出更好的可扩展性,在时间序列建模方面表现出色,优于许多先进的循环神经网络模型。

AI 团队成员曾声称,该架构适合分析任何随时间波动的现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。

除了像液体一样的灵活性,与动辄数十亿参数规模的生成 AI 模型相比,液态神经网络的另一个特点是规模小得多。

例如,可在资源高度受限环境中部署的 LFM 1.3B,参数仅 1.3B(与 GPT-2 最大版本 1.5B 相近),同时保持了更小的内存占用和更高效的推理,可以在各种机器人硬件平台上运行。

另外,由于尺寸小、架构简单,液态神经网络也有可解释性方面的优势。

不过,全新架构将如何与 等竞争对手的主流模型相抗衡还有待观察。

曾表示,目前 AI 没有计划为消费者开发像 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。

%20AI