大规模语言模型长上下文支持技术的研究与分析

AI世纪 2024-10-19

2024-10-19

在近年来，随着大规模语言模型（LLM）在自然语言处理领域的广泛应用，长上下文支持的需求日益增加。长上下文支持不仅能够提升模型在处理复杂任务时的表现，还能增强LLM在长文本生成和理解中的能力。为此，研究者们提出了多种方法来扩展LLM的上下文长度，其中包括位置插值（）、神经切线核（NTK）感知方法、动态NTK、YaRN、CLEX和RoPE等技术。这些方法各有其独特的机制和优势，都是为了提高模型在长上下文任务中的表现。

我们将讨论这些长上下文支持技术，对它们进行分析比较，重点关注它们在不同上下文长度下的表现。希望为未来的研究提供有价值的见解，推动LLM在长上下文处理能力上的进一步发展。

长上下文支持的LLM

随着对文本处理能力的需求不断增加，LLMs需要能够理解和生成更长的文本满足信息解析、提取和摘要等应用场景的要求。为了增强长上下文建模能力，研究者们提出了多种方法，包括位置插值（）、NTK感知（NTK-aware）、动态NTK（ NTK）、YaRN和CLEX等，这些方法在扩展上下文窗口方面表现出色。

具体来说，位置插值方法通过调整位置嵌入的频率，使得更多的标记能够适应于每个周期实现长上下文的扩展。NTK感知方法则通过引入每个维度的缩放因子，保留高频特征，同时扩展低频特征的周期，这对于模型在长文本中的表现至关重要。动态NTK进一步改进了这一点，使得缩放因子能够根据当前上下文长度进行调整，提高了模型的灵活性和适应性。YaRN方法采用“分段NTK”插值策略，通过引入温度因子来调整长输入的注意力分布，这种方法在处理长文本时能够有效提高模型的表现。CLEX方法则通过将缩放向量建模为动态系统，旨在学习与目标长度相关的缩放向量，从而进一步提升长上下文的处理能力。

在性能评估方面，研究表明，经过微调的精确注意力方法（如NTK-32K和YaRN）在长上下文任务中表现优于近似注意力方法和冻结模型，显示出精确注意力机制在保持高准确性方面的重要性。这种性能差异强调了在长上下文任务中，设计模型时对注意力机制的仔细考虑是必要的。

总的来说，长上下文支持不仅提升了LLMs在多种任务中的表现，还为其在实际应用中的广泛使用奠定了基础。随着技术的不断进步，未来的研究将继续探索如何进一步优化和扩展LLMs的长上下文能力，以满足日益复杂的应用需求。

位置插值（n,PI）

在扩展大型语言模型（LLMs）的上下文长度时，位置插值（ , PI）是一种重要的方法。该方法通过调整位置编码来实现对更长文本序列的支持，提高模型在处理长文本时的能力。具体而言，位置插值通过缩放位置索引，使得模型能够在推理阶段处理超出其预训练上下文窗口的输入。这种方法的基本思想是将原始上下文窗口内的所有位置索引乘以一个缩放系数，避免在预训练期间未见过的相对位置所带来的问题。

位置插值的优势在于其高效性和有效性。位置插值能够在不需要大量额外训练的情况下，显著扩展模型的上下文窗口。例如，通过对模型应用位置插值，研究人员成功地将其上下文窗口从4K扩展到16K。此外，位置插值还可以与其他方法结合使用，如NTK（神经切线核）和YaRN（基于NTK的插值策略），进一步提升模型的性能和适应性。

然而，位置插值也存在一些局限性。当处理原始上下文窗口内的正常文本时，位置插值可能会对模型的性能产生负面影响。这是因为缩放位置索引可能导致模型在处理短文本时的表现下降。另外，位置插值在处理极长文本时的能力仍然受到限制，尤其是在面对未见过的相对位置时，模型可能会出现性能下降。

NTK感知（NTK-aware）

在增强大型语言模型（LLMs）在长上下文任务中的表现方面，神经切线核（NTK）扮演了重要角色。NTK的引入使得模型能够更好地处理长序列输入，特别在需要对长文本进行推理和检索的任务中。NTK方法在长上下文扩展中表现出色，能够有效地保持模型的性能，尤其是在32k上下文长度的任务中。

具体来说，NTK方法通过对位置编码进行改进，增强了模型对长序列的理解能力。例如，NTK-RoPE方法通过引入每个维度的缩放因子，保留了高频特征，同时扩展了低频特征的周期，使得模型在处理长文本时能够更好地捕捉到重要信息。此外，动态NTK-RoPE方法则根据当前上下文长度动态调整缩放因子进一步提升模型在不同输入长度下的表现。

在与其他方法的比较中，NTK方法显示出其在长上下文任务中的稳定性和有效性。例如，在“针在干草堆”任务中，NTK和CLEX方法能够在超出预训练长度的情况下成功检索到相关信息，而其他方法如LM-和则在此类任务中表现不佳。这表明，NTK方法不仅在训练阶段表现出色，而且在实际应用中也能有效应对长文本的挑战。

此外，NTK方法的灵活性使其能够与其他技术结合使用，如位置插值（PI）和YaRN等，这些方法同样致力于提升长上下文的处理能力。研究发现，NTK、PI和YaRN在32k上下文长度的任务中表现相似，显示出它们在长上下文任务中的有效性和互补性。这种协同作用为LLMs在长上下文任务中的应用提供了更多可能性。

动态NTK（）

动态NTK（神经切线核）在大语言模型（LLMs）中推理过程中对不同上下文长度的适应性比较强。动态NTK的核心思想是通过调整位置编码的频率，使得模型能够在处理长文本时保持高效的性能。与传统的固定频率编码方法不同，动态NTK根据当前输入的上下文长度动态调整其参数，从而优化模型的表现。

在实现方面，动态NTK结合了旋转位置嵌入（RoPE）技术，通过引入一个与上下文长度相关的缩放因子，使得模型在处理不同长度的输入时，能够有效地保持高频特征的学习能力。这种方法不仅提高了模型对长文本的处理能力，增强在推理时的灵活性和准确性。具体来说，动态NTK通过在推理阶段根据输入的实际长度调整缩放因子，确保模型能够适应不同的上下文长度，而不需要进行额外的微调。

动态NTK的优势在于其能够在不牺牲性能的情况下，扩展模型的上下文窗口。研究表明，使用动态NTK的模型在处理超过预训练长度的文本时，能够有效地检索相关信息，表现出色。在多个基准测试中表现优异，尤其是在需要处理长文本的任务中，显示出其强大的适应能力和鲁棒性。

YaRN（ioN）

YaRN是易总针对大语言模型的位置编码方法，通过“按部分”插值策略在嵌入空间的不同维度上进行操作，并引入温度因子来调整长输入的注意力分布。这种方法使得YaRN能够在处理长文本时保持较高的性能，同时有效地利用了神经切线核（NTK）的特性。

在与其他上下文扩展技术的比较中，YaRN在多个评估任务中表现出色。例如，在长上下文的评估中，YaRN与位置插值（PI）和NTK方法的表现相当，均能在32k的上下文长度下保持良好的性能。然而，YaRN在处理超出预训练长度的输入时，表现出更强的适应性和灵活性，这使得它在实际应用中更具优势。

根据实验结果，YaRN在处理长文本时的困惑度（）表现优于许多其他方法，尤其是在上下文长度超过预训练窗口时。与CLEX等其他方法相比，YaRN在长文本任务中的表现更加稳定，能够更好地保持模型的推理能力。YaRN的计算效率也得到了优化，使其在资源有限的情况下仍能有效运行，这对于大规模应用至关重要。

CLEX（）

CLEX（）的核心思想是通过动态系统建模来学习与目标长度相关的缩放向量，实现对上下文长度的有效扩展。这种方法不仅能够处理超出预训练长度的输入，还能在不同的上下文长度下保持模型的性能稳定性。CLEX的设计灵感来源于RoPE，它通过引入旋转矩阵来编码绝对位置，增强了模型对长文本的处理能力。CLEX进一步扩展了这一思想，通过动态调整缩放因子，使得模型能够适应不同的输入长度。这种灵活性使得CLEX在处理长文本时，能够有效地保持上下文信息的完整性和准确性。

CLEX还在训练过程中采用了对比训练等技术，提高模型在长上下文任务中的泛化能力。在与其他方法的比较中，CLEX在长上下文任务中表现出色。例如，在评估中，CLEX的表现与NTK（）和YaRN（Yet ）相当，显示出其在处理32K上下文长度时的有效性。CLEX通过精确的注意力机制，能够在长文本中有效地检索信息，在“针在干草堆中”的任务中，CLEX的表现优于许多近似注意力方法，这表明其在长上下文建模中的重要性。

LLM

大规模语言模型长上下文支持技术的研究与分析

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

机器之心编辑部以后数据分析的活，也被包了

AI月之暗面创始人杨植麟现身上海创新创业青年论坛

OpenAI惊天内幕曝光！高管怒斥遭打压，7100亿AI巨头内外交困｜钛媒体AGI

AI模型可以用于追踪转移性癌症的源头