本周大模型 / AIGC 前沿研究:北大团队、苹果团队等成果汇总

aixo 2024-06-09 10:17:36
大模型 2024-06-09 10:17:36

原创 库珀 学术头条

本周值得关注的大模型 / AIGC 前沿研究:

北大团队提出 BoT:让 -8B 超越 -70B

Mamba-2:速度提高 2-8 倍,与 媲美

苹果团队推出文生图新方法

Audio Mamba:用于音频表征学习的双向状态空间模型

Block :通过全局到局部语言建模,实现快速推理

谷歌团队推出项目语言模型 ILM,用于对话式推荐

提出自改进鲁棒偏好优化 SRPO

斯坦福团队提出 DITTO:将语言模型与演示反馈对齐

MMLU-Pro:更鲁棒、更具挑战性的多任务语言理解基准测试

复旦团队推出 :让智能体在多样化环境中进化

想要第一时间获取每日最新大模型热门论文?

扫描下方二维码,加入「大模型技术分享群」。

或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。

1.北大团队提出 BoT:

让 -8B 超越 -70B

来自北京大学的研究团队及其合作者提出了一种新颖、通用的思维增强推理方法—— of (BoT),其可以提高大型语言模型(LLM)的准确性、效率和鲁棒性。

具体来说,我们提出了 meta-,用于存储从各种任务的问题解决过程中提炼出的一系列信息丰富的高层次思维,即 -。然后,针对每个问题,他们检索相关的 -,并用特定的推理结构对其进行适应性实例化,以进行高效推理。为了保证可扩展性和稳定性,他们进一步提出了 - 来动态更新 meta-,从而在解决更多任务时提高 meta- 的容量。

他们在 10 个具有挑战性的推理密集型任务上进行了广泛的实验,与之前的 SOTA 方法相比,取得了显著的性能提升。进一步的分析表明,BoT 具备卓越的泛化能力和模型鲁棒性,而所需的成本平均仅为多重查询提示方法(如思维树/思维图)的 12%。值得注意的是,-8B+BoT 有可能超越 -70B 模型。

论文链接:

链接:

2.Mamba-2:速度提高 2-8 倍,

与 媲美

虽然 一直是深度学习在语言建模领域取得成功的主要架构,但最近的研究表明,状态空间模型(SSM)(如 Mamba)在中小尺度上可以与 相媲美,甚至更好。

来自普林斯顿大学、卡内基梅隆大学的研究团队发现,这些模型系列实际上关系密切,并为 SSM 和注意力变体之间的理论联系建立了一个新的框架,通过对一类研究得很透彻的结构化半可分矩阵进行各种分解来建立联系。他们基于 state space (SSD)框架设计出了一种新的架构——Mamba-2,其核心层是对 Mamba 选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面仍可与 相媲美。

论文链接:

3.苹果团队推出文生图新方法

扩散模型已成为从文本描述生成高质量图像的有力工具。尽管取得了成功,但这些模型在采样图像中表现出的多样性往往有限,尤其是在使用高无分类器引导权重采样时。

为了解决这个问题,来自苹果、维吉尼亚理工大学的研究团队提出了 ,这是一种新颖的方法,它通过整合自回归潜在先验来增强样本的多样性。 整合了一个自回归语言模型,该模型可对原始标题进行编码并生成潜变量,作为抽象的中介表征,用于指导和促进图像生成过程。

他们探索了各种离散的潜在表示法,包括文字描述、检测边界框和视觉 token 等。这些表征丰富了扩散模型的输入条件,使输出结果更加多样化。实验结果表明, 有效地扩大了从给定文本描述生成的图像样本的多样性,同时保持了较高的图像质量。此外,他们还证明了 紧跟生成的潜在变量所提供的指导,从而证明了其有效控制和指导图像生成过程的能力。

论文链接:

4.Audio Mamba:

用于音频表征学习的双向状态空间模型

目前, 已迅速成为音频分类的首选,超过了基于 CNN 的方法。然而,音频谱图 (AST)由于自注意力的原因,会出现二次缩放。消除这种二次自注意力成本是一个很有吸引力的方向。最近,状态空间模型(SSM),如 Mamba,在语言和视觉任务中展示了这方面的潜力。

来自韩国科学技术院的研究团队探讨了在音频分类任务中是否有必要依赖自注意力的问题。他们提出了首个不依赖自注意力、纯粹基于 SSM 的音频分类模型 Audio Mamba(AuM)。他们在各种音频数据集(包括六个不同的基准)上对 AuM 进行了评估,结果表明它与成熟的 AST 模型相比,性能相当甚至更好。

论文链接:

网址:

5.Block :

通过全局到局部语言建模,实现快速推理

来自韩国科学技术院、LG AI 和 的研究团队提出了 Block ,该架构对自回归 采用分层全局到局部建模,从而缓解自注意力的推理瓶颈。

要应用自注意力,必须在每个解码步骤中从内存中检索所有先前序列的键值(KV)缓存。因此,KV 缓存 IO 成为批量推理的一个重要瓶颈。这些成本源于在全局上下文中应用自注意力,因此他们将全局建模的昂贵瓶颈隔离到下层,并在上层应用快速局部建模。

为了减轻下层的剩余成本,他们将输入 token 聚合成固定大小的块,然后在这个粗略的层次上应用自注意力。上下文信息被聚合到单个嵌入中,使上层能够无需全局注意力解码下一个 token 块。由于摆脱了全局注意力瓶颈,上层可以充分利用计算硬件,最大限度地提高推理吞吐量。通过利用全局和局部模块,与具有同等复杂度的普通 相比,Block 架构的推理吞吐量提高了 10-20 倍。他们的工作提出了一种新方法,通过全局到局部建模的新颖应用来优化语言模型推理。

论文链接:

地址:

6.谷歌团队推出项目语言模型 ILM,用于对话式推荐

大型语言模型(LLM)因其涌现能力,在复杂对话理解、推理和编码等任务中取得了巨大成功。这些涌现能力已通过多模态扩展到图像、音频和视频功能。另一方面,推荐系统对信息搜索和项目发现需求至关重要。

最近,人们开始尝试将 LLM 应用于推荐。当前尝试的一个困难是,底层 LLM 通常没有在推荐系统数据上进行训练,而推荐系统数据主要包含用户交互信号,并且通常不公开。另一个难点是用户交互信号往往具有不同于自然语言文本的模式,与传统的推荐系统方法相比,LLM 的训练设置能否从交互信号中学习到更多的非琐碎知识,目前还不清楚。最后,在从推荐系统数据中学习时,很难针对不同的使用情况训练多个 LLM,也很难保留原有的语言和推理能力。

为了解决这三个局限性,来自谷歌的研究团队提出了一种由一个项目编码器和一个冻结 LLM 组成项目语言模型(Item- Model,ILM),项目编码器用于生成文本对齐的项目表征,从而编码用户交互信号;冻结 LLM 则能利用保留的预训练知识理解这些项目表征。大量实验证明了语言对齐和用户交互知识在项目编码器中的重要性。

论文链接:

7. 提出自改进鲁棒偏好优化 SRPO

目前,在线和离线 RLHF 方法(如 PPO 和 DPO)在使人工智能与人类偏好保持一致方面都非常成功。然而,它们的最优解高度依赖于任务,即对分配外(OOD)任务非鲁棒性。

为此,来自 的研究团队提出了一种自改进实用的、数学上有原则性的离线鲁棒偏好优化框架 —— SRPO,对任务的变化具有完全的鲁棒性。SRPO 的主要思想是将从人类偏好中学习的问题视为一个自我改进的过程,在数学上可以用最小-最大目标来表示,该目标旨在以对抗的方式联合优化自我改进策略和生成策略。

这个优化问题的解决方案与训练任务无关,因此对训练任务的变化具有鲁棒性。然后,他们展示了这一目标可以用非对抗性离线损失的形式重新表达,它可以使用标准的监督优化技术进行大规模优化,而无需奖励模型和在线推理。他们从人工智能胜率(WR)和人类(GOLD)完成率的角度展示了 SRPO 的有效性。尤其在对 OOD XSUM 数据集进行评估时,SRPO 在 5 次自我修正后以 15% 的明显优势超过了著名的 DPO,WR 达到 90%。

论文链接:

8.斯坦福团队提出 DITTO:将语言模型与演示反馈对齐

语言模型的对齐是为了模仿许多人的“集体声音”,结果是输出结果与任何人都不一致。通过有监督的微调或 RLHF 可以引导 LLM 偏离通用输出,但对于新的临时任务来说,需要的数据集过大。

来自斯坦福大学的研究团队认为,可以利用极少数量(

他们评估了 DITTO 在新闻文章、电子邮件和博客文章等领域学习细粒度风格和任务一致性的能力。此外,他们还进行了一项用户研究,向参与者(16 人)征集了一系列演示。在他们的基准测试和用户研究中,他们发现 DITTO 的获胜率平均比少量提示、监督微调和其他自我游戏方法高出 19%。通过直接使用演示作为反馈,DITTO 为有效定制 LLM 提供了一种新方法。

论文链接:

9.MMLU-Pro:更鲁棒、更具挑战性的

多任务语言理解基准测试

在大规模语言模型时代,大规模多任务语言理解(MMLU)等基准测试在推动人工智能在不同领域的语言理解和推理能力方面发挥了关键作用。然而,随着模型的不断改进,它们在这些基准测试中的表现也开始趋于平稳,使得辨别模型能力差异变得越来越困难。

来自滑铁卢大学、多伦多大学和卡内基梅隆大学提出了一个增强型数据集——MMLU-Pro,旨在通过整合更具挑战性、以推理为重点的问题,并将选择集从四个选项扩展到十个选项,从而扩展主要由知识驱动的 MMLU 基准。此外,MMLU-Pro 还剔除了 MMLU 中琐碎和嘈杂的问题。

实验结果表明,与 MMLU 相比,MMLU-Pro 不仅提高了挑战性,使准确率大幅下降了 16% 至 33%,而且在不同提示下表现出更高的稳定性。在 24 种不同提示风格的测试中,模型得分对提示变化的敏感度从 MMLU 的 4-5% 下降到 MMLU-Pro 的 2%。

此外,他们还发现,在 MMLU-Pro 中,与直接回答相比,利用思维链(CoT)推理的模型取得了更好的成绩,这与原始 MMLU 的结果形成了鲜明对比,表明 MMLU-Pro 包含了更复杂的推理问题。评估结果证实,MMLU-Pro 是一个更具区分度的基准,可以更好地跟踪该领域的进展。

论文链接:

10.复旦团队推出 :让智能体在多样化环境中进化

人工智能领域的一个长期目标是建立能够处理各种任务并在不同环境中自我进化的通才智能体(agent)。大语言模型(LLM)因其通用能力而被认为是构建此类 agent 的一个有前途的基础。目前的方法要么是让基于 LLM 的 agent 逐步模仿专家提供的轨迹,这需要人工监督,很难扩展,也限制了对环境的探索;要么是让 agent 在孤立的环境中探索和学习,导致专业 agent 的泛化能力有限。

在这项工作中,来自复旦大学的研究团队朝着构建具有自我进化能力、基于 LLM 的通才 agent 迈出了第一步。他们确定了三种关键因素:1)用于 agent 探索和学习的多样化环境;2)使 agent 具备基本能力和先验知识的轨迹集;3)有效且可扩展的进化方法。

他们提出的 是一个新的框架,具有各种环境和任务,可用于广泛、实时、单一格式和并发的 agent 探索。 还包括一个包含扩展指令、基准套件和跨环境高质量轨迹的数据库。接下来,他们提出了一种新颖的方法—,用于研究 agent 自我进化的潜力,超越了之前跨任务和跨环境的数据。实验结果表明,进化后的 agent 可以取得与 SOTA 模型相当的结果。他们发布了 套件,包括平台、数据集、基准、检查点和算法实现。

论文链接:

项目地址: