OpenAI 新基准 SimpleQA 开源，衡量语言模型回答简短问题能力

aixo 2024-11-01 08:06:50

2024-11-01 08:06:50

品玩10月31日讯，据官方消息，新基准现已开源，该基准可以衡量语言模型回答简短的事实寻求问题的能力。

是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。的主要限制在于其范围 —— 尽管准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

OpenAI

热门文章

腾讯设计杰出专家:大模型加速产业进入全新智能时代

2024-05-12

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

2024-05-10

站长之家：正筹备展示革命性的人机对话技术

2024-05-12

AI搜索的战场，我们为什么要在意的？

2024-05-10

联合创始人Mike被任命为首席产品官

2024-05-17

微软 Phi-3-vision 基准测试,主打“视觉能力”

2024-05-28

中国品牌人物500强前十回应：别在意低头做事

2024-01-22

以专业知识内容助力民众跨越自媒体运营门槛

2024-01-22

Temu们狂卷低价，亚马逊也坐不住了

2024-01-23

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号

2024-01-22