阿里 Qwen2 大模型重磅发布,性能超越 llama3,支持超长上下文

aixo 2024-06-07 10:13:26
大模型 2024-06-07 10:13:26

llama翻译_llama是什么意思_Llama

Hello Qwen2!

刚刚阿里Qwen2大模型重磅发布!在大量基准评估中获得 SOTA 性能。代码和数学性能显著提高,全面超越

Qwen2 来了

Qwen2基本概况

5 种尺寸的基本模型和模型:

Qwen2-0.5B‍

Qwen2-1.5B‍

Qwen2-7B‍

Qwen2-57B-A14B

Qwen2-72B!

这些模型在代码、数学和多语言能力方面得到了全面增强和显著提高。这些模型支持至少 32K 字节的上下文长度,Qwen2-72B- 可支持 128K 字节

详情可参考以下链接‍‍

BLOG:

:

:

Qwen2性能‍‍‍

在基础模型和指导模型方面,与最先进的开源模型(如 Llama-3)相比,Qwen2-72B 在各种基准测试中都取得了普遍优势

llama翻译_Llama_llama是什么意思

Qwen2-72B- 在提高核心能力和符合人类偏好之间取得了平衡

llama是什么意思_llama翻译_Llama

在上下文长度方面,根据 "大海捞针 "的实验推荐了最大上下文长度。根据测试观察,小型模型可以支持大约 32K 标记,MoE 可以支持 64K 标记,而 7B 和 72B 可以支持 128K 标记!

llama是什么意思_llama翻译_Llama

所有模型都采用了 GQA,推理成本随之降低。对于小型模型,对嵌入进行绑定,以提高非嵌入参数的比例

llama是什么意思_Llama_llama翻译

尽管具有对陌生语言的泛化能力,但仍然明确地用英语和中文以外的 27 种语言的数据对模型进行了训练,因此它在多语言评估中取得了具有竞争力的表现

llama翻译_llama是什么意思_Llama

与 Qwen1.5 相比,Qwen2 在编码和解决数学问题方面的能力有了相当大的提高

llama是什么意思_Llama_llama翻译

⭐星标AI寒武纪,好内容不错过⭐

用你的赞和在看告诉我~

Qwen2