谷歌大模型 1.5 迭代显著，多项能力逼近或超越 GPT-4o

aixo 2024-05-30 13:48:28

2024-05-30 13:48:28

尽管亮相时被压了一头，但谷歌一直在悄悄迭代大模型，和最新大模型GPT-4o的差距已经显著缩小。最新测试结果显示， 1.5 Pro/在综合测试中排名第 2，逼近GPT-4o，轻量版 1.5 flash排名第9，超越 Llama-3-70b，接近GPT-4。

相比4月份的版本，免费的 Pro和Flash的能力有明显加强。且上下文长度可以达到100万token，远远超出GPT-4的12.8万token。

的中文能力更是惊艳，在中文测试中， Pro和双双超越GPT-4o，分别排在第一、第二位。

此外，在Hard 测试中，同样名列前茅。在Hard 测试中，大模型需要面对那些更具挑战性的问题， 1.5 Pro在这一测试中排名第二，仅次于GPT-4o.

从大模型置信区间（）来看，的测试结果也名列前茅。

值得一提的是，两周前，在更新撞档GPT-4o发布时。因为羸弱的能力几乎引来了群嘲。根据多家科技博客的测评，即使谷歌已经对1.5 Pro进行了数月的改进，但从常识推理到多模态能力和代码能力，仍然无法与最新的GPT-4o模型相媲美。唯一亮点就是更大的上下文窗口。如今谷歌取得了如此神速的进步，显示出AI界届黄埔军校仍然有深厚的技术底蕴。

GPT

谷歌大模型 1.5 迭代显著，多项能力逼近或超越 GPT-4o

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号