游勇继文生视频模型Sora-4o：科幻正在成为现实

aixo 2024-05-14 10:38:40

2024-05-14 10:38:40

文｜周路平

编｜游勇

继文生视频模型Sora之后，再一次给外界带来惊喜。这一次，向世人展现了强大且丝滑的语音对话等多模态能力。

北京时间5月14日凌晨1点，在谷歌开发者大会前一天，预热已久的正式向公众发布了语音大模型GPT-4o（，全能模型），可以综合利用语音、文本和视觉信息进行推理，扮演一个个人语音交互助手。而且，将会对这一模型免费向公众开放。

除了全新的大模型，也正式宣布推出桌面版，“从今天开始，我们将首先向Plus用户推出macOS应用，并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出版本。”

情感化、对话丝滑，效果令人震撼

发布会全程只持续了26分钟， CEO奥特曼没有现身，由公司CTO和两位工程师来发布。它的界面是一个巨大的黑点，但现场演示的几个GPT4o对话场景却令人感到惊艳。

整个对话的过程非常丝滑，不仅能说能听能看，还会有情绪的变化，就像是和一个真实的人在打视频电话。

而通过现场演示的几个场景，我们也仿佛看到了《Her》的场面，科幻正在成为现实。

场景一：缓解情绪

演示嘉宾说自己现在有点紧张要如何缓解，大模型立马安抚他别紧张，慢下来，可以深呼吸。然后演示嘉宾故意做出非常夸张且急促的呼吸声。大模型很快纠正了这种不正确的呼吸方式，在它的指导下如何缓慢地呼气和吸气。

场景二：讲睡前故事

要求大模型讲一个关于机器人与爱的睡前故事。正当大模型讲得正起劲时，主持人赶紧打断，提出声音要更有感情，大模型很快切换到了非常有戏剧性的声音。结果话还没说完，一位嘉宾接过话题，提出声音需要更有冲击力，大模型便以一种非常夸张的口吻继续讲述着刚才的睡前故事。但是，对大模型的考验还没有结束，另一位嘉宾又提出要切换到机器人的声音。很快，大模型就开始模仿机器人的腔调继续讲述。最终，大模型被要求以演唱一首歌结束了对话。

01:43

场景三：解代数方程

演示嘉宾在纸上写了一个简单的方程式，要求语音助手通过摄像头获得视觉能力后，实时视频指导数学解题。

大模型刚开始还出现了“幻觉”，在没打开摄像头时就自信满满地说理解了。当演示嘉宾提示后，她才说“oops，我太兴奋了。”然后大模型一步一步提醒和讲解他的解题思路。整个过程，大模型就像一个很有经验且富有耐心的数学老师。

妈妈再也不用担心我的学习了。

场景四：根据外表判断情绪

演示嘉宾拿着手机摄像头对着自己的脸和大模型对话，大模型很快通过识别视频中的人物表情给出了自己的判断。大模型说，你看起来很开心，带着灿烂的笑容，甚至有一丝兴奋，你能分享你快乐的来源吗？当演示嘉宾说，开心是因为要展示你多么有用和强大时，大模型甚至表现出了一丝丝的娇羞。

在这个场景的演示中还出现了一个插曲，演示嘉宾一开始打开的是后置摄像头，拍到的是一张桌子，大模型说“这看起来像是一个木板的表面”。演示嘉宾很快说自己拍错了画面，然后转换成前置摄像头开始自拍，大模型也快速反应过来。

总结一下语音大模型在演示中的几个特点：

一是快，快速反应，几乎没有时延，而且语速跟正常人没有差别，仿佛在跟一个真实的人类在打电话。而此前，用户使用语音功能与对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒。

二是可以随时打断，不用等它回答完，直接打断，也能快速接着最新的话题往下聊，非常丝滑；

三是可以捕捉情绪变化，比如能判断对方急促的呼吸方式不对。而且也可以扮演不同的角色，比如戏剧性的语气，或者冰冷的机器人的声音，切换自如。

四是多模态的能力很强，比如你可以用意大利语提问，然后要求对方用英语回答，比如可以写一个方程式，语音助手可以通过手机摄像头识别后，一步步教你解题步骤。甚至还可以用摄像头对着自己，语音助手可以识别图像来判断你现在的情绪。从“软件代码中发生了什么？”到“这个人穿什么牌子的衬衫？”，大模型都能通过多模态的能力，很好地回答。

首席技术官穆里·穆拉蒂 (Muri ) 表示，GPT-4o将提供与GPT-4同等水平的智能，但在文本、图像以及语音处理方面均取得了进一步提升，“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”

对于这一模型，并没有像Sora一样，迟迟未对公众开放使用。宣布GPT-4o将在未来几周内分阶段集成至的各个产品之中。更关键的是，GPT-4o将免费提供给所有用户使用，付费用户则可以享受五倍的调用额度。

同时，同步开放了最新大模型的API接口的调用，价格方也便宜不少。GPT-4o的价格是GPT-4-turbo的一半，速度是GPT-4-turbo的两倍。

不过，GPT-4o的API接口并非向所有客户开放。以滥用风险为由，表示计划在未来几周内首先向“一小群值得信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

AI搜索没来，但桌面版来了

这次的发布基本坐实了一个事实，那就是苹果的语音助手Siri将引入，GPT-4o强大的语音对话能力对Siri是个巨大的提升。而且，的发布会演示过程中也出现了大量苹果的设备。

不过，令人遗憾的是，此前外界盛传已久的搜索产品没有出现。

在此之前，外界一度盛传将发布AI搜索的功能，包括有媒体拿到了的提前体验版本——界面仍然是对话交互，但在回答时会使用网络信息进行回答。

所以，一度有消息称，的搜索功能会在5月10日上线，但最终还是被放了鸽子， CEO奥特曼回应称，不会有GPT5，也不会有搜索产品。

但不少用户发现，已经可以回答最新的信息，比如当天的股票或者天气，而且都是准确的信息。可以回答网址，可以跳转链接，时不时也可以提供最新的数据。但这与真正的AI搜索相差甚远。

昆仑万维CEO方汉认为，用户涨不上去是现在最头疼的事情。“目前看到的产品形态上来讲，的搜索产品，并没有对海内外所有的搜索引擎产品，形成碾压，形成 SOTA（state-of-the-art，最佳表现），发布这个产品，可能会让用户有一点增长，但不会让用户翻倍增长。所以我认为，这是在 I/O 前对谷歌的一次战略狙击，它的根本战术上，还是在等待和筹备 GPT-4.5。”

“Open AI无论发布什么新产品，都是在给的强大能力重新定义场景，在找新的产品出路。”360董事长周鸿祎也认为，在做场景的收缩和聚焦，如果大模型有一万种能力，而不要去承诺有一万种场景，而是在大模型中精选几十种或者几百种能力，聚焦到一两个比较明确的场景上。

在此之前，发布了GPT的应用商店，通过GPTs让用户来定义场景，目前GPTs的数量超过了百万，但却遭到了不少用户的吐槽，一方面不上心，另一方面也缺少客户。正如周鸿祎说，GPTs定义的场景太多太碎，也不算成功。Open AI也需要探索，做出几个典型的大模型驱动的产品，这个产品要明确定义用户使用的场景。

不过相比于寻找场景，这次发布了桌面版的和新的用户界面，完善的协作能力。“我们认识到这些模型正变得越来越复杂，” 穆拉蒂说道，“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松，让用户可以将注意力完全集中在与模型的协作上，而无需在意界面本身。”

比如，用户可以通过 + 空格键向提问，并且可以在应用内截取和讨论屏幕截图。

“我们知道，随着这些模型变得越来越复杂，我们希望交互体验变得更加自然，”穆拉蒂说。“这是我们第一次在易用性方面真正迈出一大步。”

上一次，用Sora狙击了谷歌的，这一次再一次选择谷歌开发者大会的前一天释放大招，面对有实力又擅长PR的奥特曼，谷歌又将如何应对，明日的谷歌开发者大会见分晓。

OpenAI

游勇继文生视频模型Sora-4o：科幻正在成为现实

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号