阿里 Qwen2 大模型重磅发布，性能超越 llama3，支持超长上下文

aixo 2024-06-07 10:13:26

2024-06-07 10:13:26

Hello Qwen2!

刚刚阿里Qwen2大模型重磅发布！在大量基准评估中获得 SOTA 性能。代码和数学性能显著提高，全面超越

Qwen2 来了

Qwen2基本概况

5 种尺寸的基本模型和模型：

Qwen2-0.5B‍

Qwen2-1.5B‍

Qwen2-7B‍

Qwen2-57B-A14B

Qwen2-72B！

这些模型在代码、数学和多语言能力方面得到了全面增强和显著提高。这些模型支持至少 32K 字节的上下文长度，Qwen2-72B- 可支持 128K 字节

详情可参考以下链接‍‍

BLOG:

‍

Qwen2性能‍‍‍

在基础模型和指导模型方面，与最先进的开源模型（如 Llama-3）相比，Qwen2-72B 在各种基准测试中都取得了普遍优势

Qwen2-72B- 在提高核心能力和符合人类偏好之间取得了平衡

在上下文长度方面，根据 "大海捞针 "的实验推荐了最大上下文长度。根据测试观察，小型模型可以支持大约 32K 标记，MoE 可以支持 64K 标记，而 7B 和 72B 可以支持 128K 标记！

所有模型都采用了 GQA，推理成本随之降低。对于小型模型，对嵌入进行绑定，以提高非嵌入参数的比例

尽管具有对陌生语言的泛化能力，但仍然明确地用英语和中文以外的 27 种语言的数据对模型进行了训练，因此它在多语言评估中取得了具有竞争力的表现

与 Qwen1.5 相比，Qwen2 在编码和解决数学问题方面的能力有了相当大的提高

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

Qwen2

Llama