深度求索开源模型 DeepSeek-Coder-V2 上线，性能比肩 GPT-4

aixo 2024-06-18 11:12:54

2024-06-18 11:12:54

蓝鲸新闻6月18日讯（记者朱俊熹）在火热的大模型竞赛中，比拼性能已不再是一件新鲜事。随着技术迭代的加速，几乎每隔一段时间就能看到又一代更新版的AI大模型，挂上“比肩GPT-4”的名号。

6月17日，AI公司深度求索（）正式上线开源模型-Coder-V2。据介绍，该模型在代码、数学的多个榜单上位居全球第二，介于最强闭源模型 GPT-4o和GPT-4-Turbo之间。

此外，-Coder-V2开源大模型还具有良好的通用性能，在中英通用能力上位列国内第一梯队。表示，该模型沿用了上一代-V2模型的创新架构，具有2360亿总参数，但处理每个token时只需激活210亿参数，不仅能够减少内存使用，也能提高计算效率。

最新的开源模型支持32K上下文，并延续了此前的定价，每百万输入价格为1元、输出价格为2元。此前率先拉低大模型定价，随后字节跳动、阿里云、百度等行业巨头加入低价队列，引发国内大模型价格战。

为了彰显性能排名的权威性，各企业在发布大模型时通常会附上评测榜单，其中涵盖了不同的评测集。评测集就像是AI大模型的考卷，用来测试其在各类任务和场景下的表现，但考察的侧重点会有所不同。通过给大模型打分，可以直观地对比它们的性能高低。

具体而言，在评估大模型代码生成能力的评测集上，新推出的开源模型得分为90.2，仅次于分数为91.0的GPT-4o。在数学算数领域，GSM8K是由发布的大模型数学推理能力评测基准，-Coder-V2模型的该项得分为94.9，同样超过了众多开闭源模型。

但是在通用能力的评测上，以目前使用最多的MMLU评测集为例，-Coder-V2模型的得分为79.2，与GPT-4仍有一定差距，也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得82.3的分数，而Meta的-70B模型为80.2。

表示，虽然-Coder-V2较前一代模型的综合得分更高，但两个模型在实际应用中各有所长，“-V2是文科生，-Coder-V2是理科生，精通的技能点不同”。最新发布的大模型更擅长代码编程、数学计算和逻辑推理，而上一代模型则在文本创作、任务规划等方面表现更优。

当地时间6月14日，“AI卖铲人”英伟达宣布开源-4 340B（3400亿参数）系列模型。据称该模型的表现超过了一众开源竞争对手，包括-70B、Qwen2-72B、法国创企 AI的-8x22B等，甚至能够与闭源模型GPT-4o相媲美。

大模型