阿里 Qwen2 大模型重磅发布,性能超越 llama3,支持超长上下文
Hello Qwen2!
刚刚阿里Qwen2大模型重磅发布!在大量基准评估中获得 SOTA 性能。代码和数学性能显著提高,全面超越
Qwen2 来了
Qwen2基本概况
5 种尺寸的基本模型和模型:
Qwen2-0.5B
Qwen2-1.5B
Qwen2-7B
Qwen2-57B-A14B
Qwen2-72B!
这些模型在代码、数学和多语言能力方面得到了全面增强和显著提高。这些模型支持至少 32K 字节的上下文长度,Qwen2-72B- 可支持 128K 字节
详情可参考以下链接
BLOG:
:
:
Qwen2性能
在基础模型和指导模型方面,与最先进的开源模型(如 Llama-3)相比,Qwen2-72B 在各种基准测试中都取得了普遍优势
Qwen2-72B- 在提高核心能力和符合人类偏好之间取得了平衡
在上下文长度方面,根据 "大海捞针 "的实验推荐了最大上下文长度。根据测试观察,小型模型可以支持大约 32K 标记,MoE 可以支持 64K 标记,而 7B 和 72B 可以支持 128K 标记!
所有模型都采用了 GQA,推理成本随之降低。对于小型模型,对嵌入进行绑定,以提高非嵌入参数的比例
尽管具有对陌生语言的泛化能力,但仍然明确地用英语和中文以外的 27 种语言的数据对模型进行了训练,因此它在多语言评估中取得了具有竞争力的表现
与 Qwen1.5 相比,Qwen2 在编码和解决数学问题方面的能力有了相当大的提高
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
Qwen2