GPT-4o推出新模型多模态升级，GPT要做人类知音？

aixo 2024-05-16 01:41:23

2024-05-16 01:41:23

GPT-4o中的“o”代表“omni”，即全能……

5月13日，春季发布会上，CTO Mira 代表公司向世界发布了旗舰版本GPT-4o。整场发布会上运用了大量的篇幅，去介绍GPT-4o在移动端段与人类交互的先进程度，通过现场与GPT-4o交流、歌唱、实时解题等形式，强调了新模型多模态场景下的应用。

官方表示，在GPT-4o推出之前，用户使用语音模式与进行对话时，延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒，GPT-4o将这一延迟被大幅缩短为320毫秒。

这是因为传统语音模式通过三模型实现：音频转文本，GPT-3.5/GPT-4处理文本，再文本转音频。但GPT-4会丢失信息，因其无法直接处理语调、多说话者、背景噪音，且不能输出笑声、歌唱或情感。而GPT-4o通过端到端训练了一个全新的模型，能够同时处理文本、视觉和音频输入输出。这意味着所有的输入和输出都由同一个神经网络处理。

多模态升级，GPT要做人类知音？

GPT-4o在性能和效率方面进行了显著优化。得益于改进的模型架构和训练方法，GPT-4o在处理复杂任务时展现出更高的准确性和更快的响应速度。表示，GPT-4o的推出将为用户带来前所未有的体验，显著提升自然语言处理、对话系统、数据分析和编程辅助等领域的应用效果。

根据官网信息，GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上也达到了新高水位线。

文本评价：

在文本处理方面，GPT-4o在0-shot CoT（Chain of ） MMLU（常识问题）等测试中，取得了88.7%的高分，刷新了纪录。这种表现表明GPT-4o在无提示情况下依然能够进行复杂的推理和回答问题。此外，在传统的5-shot no-CoT MMLU测试中，GPT-4o也创下了87.2%的新高分。这些评估结果均通过新的评估库进行，确保了测试的可靠性和权威性。这些改进不仅提升了模型的推理能力，还增加了其在广泛任务中的适用性。

音频ASR性能：

在音频处理方面，相比-v3，GPT-4o在自动语音识别（ASR）性能上实现了大幅提升，特别是在资源匮乏的语言中，其表现尤为突出。这意味着GPT-4o不仅能够处理主流语言，还能在更多语言环境下提供高质量的语音识别服务。

音频翻译性能：

同时，在语音翻译方面，GPT-4o也树立了新的行业标准，在MLS基准测试中表现优于-v3，展示了其在跨语言沟通和翻译方面的卓越能力。

零样本结果：

在多语言和视觉评估方面，GPT-4o在基准测试中，在所有语言的测试中均表现优异。这表明GPT-4o不仅在单一语言环境下表现出色，还能够处理多语言环境下的复杂任务，充分展示了其强大的跨语言理解和处理能力。

视频理解评估：

在视觉理解方面，GPT-4o在多个视觉感知基准上实现了最先进的性能。这些基准测试包括0-shot的MMMU、和等，这意味着GPT-4o在无样本学习的情况下依然能够保持高水平的视觉理解和推理能力。这种能力使GPT-4o在处理图像、图表和复杂视觉信息时表现出色，进一步拓展了其在实际应用中的潜力。

GPT-4o在多个技术领域实现了显著的性能提升。多模态能力让GPT-4o在更多的应用场景中具有更高的实用性。此外，提供了便捷的API接口，使得开发者可以轻松将GPT-4o集成到自己的应用中。此外，GPT-4o支持多种平台和编程语言，进一步提升了其使用的灵活性和便利性。

发力端侧应用，更在乎情绪价值

纵观整场发布会，的表现并想要非突出技术带来行业变革，而是让人工智能技术除了在商业领域为企业带来的提质增效，也更能够服务好人们日常的生活。

或许这也是Sam 选择更有亲和力的女性CTO Mira 来主持本次发布会的原因之一。

除了实时语音对话功能，研发负责人还带来了GPT-4o在实时处理数学问题的高光表现。手写了一个方程，并通过摄像头将其拍给GPT-4o，并让其进行在线指导。在语音助手的一步步指引下，也是非常轻松的解决了该问题。

此外，还展示了GPT-4o在代码、实时翻译等多种问题，尽管还是在有些测试是出现了错误，但整个发布会都在一个非常轻松的环境下进行。不仅让企业或研究团队有了新的研究方向和参考，也让更多C端用户感受到AI赋予的全新产品体验。

在PC端，推出了一款新的 macOS 应用，旨在简化工作流程。该应用适用于免费和付费用户，可无缝集成到用户在计算机上的操作中。通过简单的键盘快捷键，用户可以立即向提问，并在应用程序中截取屏幕截图进行讨论。

对于 Plus 用户来说，这款 macOS 应用将提供更多的功能和服务。而未来几周内，还计划将该应用推广到更广泛的用户群体，并计划在今年晚些时候推出适用于平台的版本，以满足不同用户的需求。

大模型之家认为，在人工智能领域的商业化进程中，C端市场占据了至关重要的地位。作为一家领先的AI公司，对C端市场的用户体验给予了高度的重视，这种重视不仅是为了满足用户需求，更是为其在C端市场的进一步商业化探索铺平了道路。

在C端市场，用户需求多样化且变化迅速，因此也更佳需要智能、人性化的用户体验，不仅要优化模型算法，也要提升交互界面的友好性和易用性，确保用户在使用其产品时能够享受到流畅、自然的交互体验。

值得注意的是，在2024年谷歌I/O大会前一天选择“截胡”，不仅体现了对于C端多模态大模型市场的重视，也透露出在大模型商业竞争格局中的积极态度和战略眼光。

这一行动无疑为赢得了更多的行业声量。在科技行业中，声量往往与影响力、市场份额和商业化潜力紧密相连。通过这一策略，成功吸引了大量用户和媒体的关注，进一步巩固了其在AI技术领域的领先地位。

更重要的是，的这一行动也直接指向了C端多模态大模型的入口。随着技术的不断进步和应用场景的不断扩展，多模态大模型已经成为AI领域的重要发展方向。它不仅能够处理文本、图像、音频等多种信息形式，还能够实现更加智能、自然的人机交互，为用户带来更加便捷、丰富的体验。因此，谁能够抢占多模态大模型的入口，谁就有可能在未来的市场竞争中占据先机。

从大模型商业竞争格局来看，GPT-4o的免费开放无疑加剧了行业内的竞争，也展示出了其对于商业扩张的“野心”。显然，谷歌、Meta等科技巨头不会坐以待毙，在这场“全面升级”的大模型商战中，谷歌如何还击？相信很快就会揭晓。

OpenAI

GPT-4o推出新模型多模态升级，GPT要做人类知音？

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号