开源大模型 Qwen2 全面超越 Llama3,登顶 HggingFace 榜单第一

aixo 2024-06-09 10:17:33
大模型 2024-06-09 10:17:33

开源大模型全球格局,一夜再变。

这不,全新开源大模型亮相,性能全面超越开源标杆。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,直接冲上开源大模型榜单第一。

这就是最新一代开源大模型Qwen2,来自通义千问,来自阿里巴巴。

在十几项国际权威测评中,Qwen2-72B得分均胜过-70B,尤其在、MATH等测试代码和数学能力的基准中表现突出。

不仅如此,作为国产大模型,Qwen2-72B也“毕其功于一役”,超过了国内一众闭源大模型:

Qwen2-72B相比于自家前代模型Qwen1.5-110B实现了整体性能的代际提升,而在上海AI Lab推出的大模型测评榜单上,Qwen1.5-110B已经超过了文心4、-v1-8K等一众国内闭源模型。随着Qwen2-72B的问世,这一领先优势还在扩大。

有网友便感慨说:这还只是刚开始。开源模型很可能在未来几个月,就能击败GPT-4o为代表的闭源模型。

Qwen2的发布,可以说是一石激起千层浪。

上线仅1天,下载量已经超过3万次。

网友们还发现,除了72B和指令调优版本,这次同步开源的Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B,开源许可都换成了.0——

就是说可以更加自由地商用。这是系列都没做到的。

在AI大模型领域,时间和速度都不同了。

因为距离阿里推出Qwen1.5-110B模型刷新SOTA,全球开源大模型形成双雄格局,才刚过去1个月时间。

而现在,Qwen2独领风骚,全球开源第一,国产大模型第一——连不开源的大模型都超越了。

Qwen2挑战高考数学真题

还是先来整体梳理一下Qwen2的基本情况。

根据官方技术博客介绍,Qwen2的特点和相比Qwen1.5的主要升级包括:

纸面数据上,Qwen2在开源大模型中已经达成全球最强,那么实际表现又会如何?

我们用新鲜出炉的高考数学真题上手实测了一波。

先来个简单题:

已知集合A={x|-5

左边是Qwen2-72B-,右边是Llama-3-70B-。除了原版的老问题不咋支持中文外,两边的答案都是正确的。

那么就稍微上点难度:

当x∈[0,2π]时,曲线y=sinx与y=2sin(3x-π/6)的交点个数为?

Qwen2-72B-依然没有被难住,一通计算后给出正确答案:交点个数为6个。

而Llama-3-70B-则计算错误,扣5分。

Qwen2在数学能力方面,已经到了高考考场接受真题检验的水平。

通义千问此番升级,官方和评测数据还突出了代码能力的提升,我们也有中等难度真题浅测了一下:

给你一个按照非递减顺序排列的整数数组nums,和一个目标值。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值 ,返回 [-1, -1]。你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。

Qwen2-72B-给出的实现如下:

defsearchRange(nums,target):defbinary_search_left(nums,target):

left,right=0,len(nums)

mid=(left+right)//[mid]

left=mid+1else:

right=

ht(nums,):

left,right=0,len(nums)

mid=(left+right)//[mid]

GPT