OpenAI 未透露 GPT-4o Mini 确切参数规模,但其测试成绩显示比主流小模型更强大

aixo 2024-07-20 08:49:14
大模型 2024-07-20 08:49:14

并未透露 GPT-4o Mini 的确切参数规模,但表示其大致与其他小模型(如 Llama 3 8B、 Haiku 和 Flash)在同一水平。

不过,该公司披露的测试成绩显示,GPT-4o Mini 比主流的小模型更快、更具成本效益且更强大。

具体来说,GPT-4o Mini 在大规模多任务语言理解测试中得分为 82%,相比之下, Flash 是 79%, Haiku 是 75%。

在多语言数学测试中,GPT-4o Mini 得分为 87%,而 Flash 和 Haiku 分别是 78% 和 72%。

此外,在 (代码生成)测试中,GPT-4o Mini 也以 87.2% 的成绩遥遥领先于 Flash 的 71.5% 和 Haiku 的 75.9%。

可以看出,GPT-4o Mini 在基准测试上的表现确实优异。当然,它的表现和大模型 GPT-4o 还是有一定的差距。

图 | GPT-4o Mini 与其他模型的测试成绩对比(来源:)

据 官网介绍,“GPT-4o Mini 的上下文窗口是 128k token,大约相当于一本书的长度,每个请求最多支持 16k token,其知识更新截止到 2023 年 10 月。”

目前,GPT-4o Mini 在 API 中支持文本和视觉输入。 表示,“未来将支持视频、音频和图像生成功能。它的微调功能也将在近期发布。”

“为了让世界每一个角落都能受益于人工智能,我们需要让模型变得更加经济实惠。” 的产品 API 负责人奥利维尔·戈德门特( )表示,“我认为 GPT-4o Mini 在这方面迈出了非常重要的一步。”

此外, 还强调了 GPT-4o Mini 具有与 GPT-4o 相同的内置安全措施。

很多有毒内容在预训练阶段就已被过滤掉,并且使用了基于人类反馈的强化学习(RLHF)等技术,使模型的行为与公司政策保持一致,以提高模型响应的准确性和可靠性。

小模型的价值

小模型,指的是那些在参数规模上显著少于传统大模型的模型,其结构一般也更简单。

它们旨在以较低的成本执行更简单的任务,例如制作列表、总结或建议词语,而不是进行深度分析。

这些模型通常针对 API 用户,他们支付固定的 token 输入和输出费用,并在其应用程序中使用这些模型。

小模型的参数较少,意味着运行模型所需的计算量较少,进而降低了硬件要求、能源消耗和最终用户成本。

然而有研究表明,参数多少和能力之间并不总是有直接的关系。训练数据的质量、模型架构的效率以及训练过程本身也会显著影响模型的性能。

展望未来

在博客中, 表示其将继续推动模型成本降低,同时提高模型能力。它设想的未来模型将无缝集成到每个应用程序和网站之中。

事实上,随着大模型领域越来越卷,许多公司都将目光放在了小模型上,希望用更低的成本吸引开发者。

与 GPT-4o Mini 同一天发布的,还有一个名为 NeMo 的小模型,由法国人工智能独角兽 和英伟达联合发布。

该模型的参数为 12 亿,上下文窗口 128k。最重要的是,得益于英伟达的深度参与,该模型在英伟达平台上实现了更好的性能优化。

可以预见的是,我们将看到更多的小模型不断问世,为开发者更高效、更经济地构建和扩展强大的人工智能应用程序铺平道路,由此也会让更多人体会到人工智能的便利。

参考:

运营/排版:何晨龙

01/

02/

03/

04/

05/

海量资讯、精准解读,尽在新浪财经APP