开源大模型 Qwen2 全面超越 Llama3，登顶 HggingFace 榜单第一

aixo 2024-06-09 10:17:33

2024-06-09 10:17:33

开源大模型全球格局，一夜再变。

这不，全新开源大模型亮相，性能全面超越开源标杆。王座易主了。不是“媲美”、不是“追上”，是全面超越。发布两小时，直接冲上开源大模型榜单第一。

这就是最新一代开源大模型Qwen2，来自通义千问，来自阿里巴巴。

在十几项国际权威测评中，Qwen2-72B得分均胜过-70B，尤其在、MATH等测试代码和数学能力的基准中表现突出。

不仅如此，作为国产大模型，Qwen2-72B也“毕其功于一役”，超过了国内一众闭源大模型:

Qwen2-72B相比于自家前代模型Qwen1.5-110B实现了整体性能的代际提升，而在上海AI Lab推出的大模型测评榜单上，Qwen1.5-110B已经超过了文心4、-v1-8K等一众国内闭源模型。随着Qwen2-72B的问世，这一领先优势还在扩大。

有网友便感慨说:这还只是刚开始。开源模型很可能在未来几个月，就能击败GPT-4o为代表的闭源模型。

Qwen2的发布，可以说是一石激起千层浪。

上线仅1天，下载量已经超过3万次。

网友们还发现，除了72B和指令调优版本，这次同步开源的Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B，开源许可都换成了.0——

就是说可以更加自由地商用。这是系列都没做到的。

在AI大模型领域，时间和速度都不同了。

因为距离阿里推出Qwen1.5-110B模型刷新SOTA，全球开源大模型形成双雄格局，才刚过去1个月时间。

而现在，Qwen2独领风骚，全球开源第一，国产大模型第一——连不开源的大模型都超越了。

Qwen2挑战高考数学真题

还是先来整体梳理一下Qwen2的基本情况。

根据官方技术博客介绍，Qwen2的特点和相比Qwen1.5的主要升级包括:

纸面数据上，Qwen2在开源大模型中已经达成全球最强，那么实际表现又会如何?

我们用新鲜出炉的高考数学真题上手实测了一波。

先来个简单题:

已知集合A={x|-5

左边是Qwen2-72B-，右边是Llama-3-70B-。除了原版的老问题不咋支持中文外，两边的答案都是正确的。

那么就稍微上点难度:

当x∈[0，2π]时，曲线y=sinx与y=2sin（3x-π/6）的交点个数为?

Qwen2-72B-依然没有被难住，一通计算后给出正确答案:交点个数为6个。

而Llama-3-70B-则计算错误，扣5分。

Qwen2在数学能力方面，已经到了高考考场接受真题检验的水平。

通义千问此番升级，官方和评测数据还突出了代码能力的提升，我们也有中等难度真题浅测了一下:

给你一个按照非递减顺序排列的整数数组nums，和一个目标值。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值，返回 [-1， -1]。你必须设计并实现时间复杂度为 O（log n）的算法解决此问题。

Qwen2-72B-给出的实现如下:

defsearchRange（nums，target）:defbinary_search_left(nums，target):

left，right=0，len（nums）

mid=（left+right）//[mid]

left=mid+1else:

right=

ht（nums，）:

left，right=0，len（nums）

mid=（left+right）//[mid]

GPT

开源大模型 Qwen2 全面超越 Llama3，登顶 HggingFace 榜单第一

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号