OpenAI 新基准 SimpleQA 开源,衡量语言模型回答简短问题能力
品玩10月31日讯,据 官方消息,新基准 现已开源,该基准可以衡量语言模型回答简短的事实寻求问题的能力。
是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。 的主要限制在于其范围 —— 尽管 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。
表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。