大模型开源开放评测体系司南（2.0）公布2024年4月大语言模型*新评测榜单

aixo 2024-05-22 13:20:55

2024-05-22 13:20:55

【天极网IT新闻频道】近期，大模型开源开放评测体系司南( 2.0)公布了2024年4月大语言模型*新评测榜单，智谱AI的GLM-4继续保持国产大模型*的*身位。

大模型开源开放评测体系司南( 2.0)由上海人工智能实验室发布。其月度榜单从基础能力和综合能力的设计出发，构建了一套高质量的中英文双语评测基准体系，对主流开源模型和商业API模型进行了全面评测分析。评测榜单涉及的大语言模型和多模态大模型超过150个，更有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用助力开展技术研发。

在4月客观评测榜单中，基于语言、知识、推理、数学、代码、智能体六个维度构建了15000余道高质量中英文双语问题，并引入团队首创的循环评估 ( ) 策略，系统性分析了国内外大模型的客观性能。其中，GLM-4位列第四名，仅次于GPT-4-Turbo系列与-Opus，成为国内大模型客观评测月度总榜*名。在语言维度方面，GLM-4分数达到57.7分表现突出，超过GPT-4-Turbo系列与-Opus。在知识维度上，GLM-4得到68.9分，超过第二名的GPT-4-Turbo-1106，与第三名-Opus不相上下。

值得一提的是，GLM-4此前便长期占据 2.0榜单前列，并多次在权威榜单与全球*大模型一较高下。清华《大模型综合能力评测报告》显示，GLM-4在语义理解等方面的能力表现超过了GPT-4-Turbo等国际一流模型，在代码、智能体等方面，排名国内*。在-Fin(SC-Fin)中文原生金融大模型测评基准中，GLM-4斩获一项A+及多项A级评价，在国内大模型中排名*。

据了解，GLM-4是由智谱AI于今年1月推出的新一代基座大模型。GLM-4整体性能逼近GPT-4，它可以支持更长的上下文，具备更强的多模态能力。同时，它的推理速度更快，支持更高的并发，大大降低推理成本。依托GLM-4 All Tools能力，GLM-4智能体能够实现自主根据用户意图，自动理解、规划复杂指令，自由调用网页浏览器、Code 代码解释器和多模态文生图大模型以完成复杂任务。

开发者可以通过智谱AI大模型开放平台接入GLM-4模型开放API，便捷高效地体验GLM-4的强大能力。

类型：广告

智谱AI

大模型开源开放评测体系司南（2.0）公布2024年4月大语言模型*新评测榜单

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号