不是GPT-5，而是AI语音助手？

aixo 2024-05-12 22:23:32

2024-05-12 22:23:32

随着和 Llama 模型相继进入“3”时代，本该早早提上日程的 GPT-4.5/5 却迟迟不露面。

不过，别急，在大餐到来之前，一些开胃小菜已经准备好了。昨日凌晨，宣布将于 5 月 13 日太平洋时间 10:00 直播演示一些关于的大更新。

随后， CEO Sam 引述该消息帖子称：

不是 GPT-5，也不是搜索引擎，但我们一直在努力开发一些大家会喜欢的新东西！对我来说，它就像魔法一样。

不是GPT-5，不是AI搜索引擎，而是AI语音助手？

为啥要特意强调新品不是 AI 搜索引擎呢？这得从最近传出的一则小道消息说起。

上周，有风声传出，正准备推出一款 AI 搜索引擎，并且矛头直指下周即将召开的 I/O 大会，一时间让无数翘首以待的吃瓜群众迎来了久违的亢奋。

遗憾的是，的帖子给这则流言画上了终止符号，发布会的确如预测般如期举行，但 AI 搜索引擎并不是主角，甚至连配角的位置都未必能拿到。

真正的主角已经在 The 的爆料中泄露了一些关键踪迹。

报道称下周可能会展示一种新 AI 技术：它不仅能通过声音和文字跟人交流，还能识别物体和图像，并且逻辑推理能力也比现在市面上的产品要强。

这也是一直在追求的目标，他想要开发出一种超级智能的 AI，像电影《Her》里的虚拟助手一样，能让 Siri 等现有的语音助手变得更有用。

其语音助手能做的事情可不止一星半点，比如帮学生辅导作业，或者在需要的时候告诉你周围环境的信息，又或者翻译个标志，教你怎么修车。

目前，这项技术已经在客服行业“攻城拔寨”。知情人士透露，新技术的音频功能可以让这些 AI 自动代理更好地理解来电者的语气，甚至还能判断他们是否在“阴阳怪气”。

实际上，在转录音频和文本转语音等领域早有建树，无论是上个月推出的“语音引擎”（Voice ），还是更早些时候发布的 TTS（文本转语音）软件，都有着不俗的表现。

而爆料者称，新模型将把这些功能合二为一，构建一个更懂图像和音频的多模态模型，响应速度也更快。

作为的最大金主，微软也考虑用该技术来提升语音助手，或者想办法让这些技术能在更小的设备上运行，比如可穿戴设备。

目前尚不清楚什么时候会把这个新功能开放给付费用户，但知情人士透露，的最终打算是将这些功能添加到免费版里。

不过，由于这些模型参数规模庞大，现在只能在云端运行，并且还需要互联网连接。要让复杂的对话 AI 变得足够小，支持在设备上运行，可能还需要数月甚至数年的时间。

除了备受关注的新模型，一些爆料的细枝末节同等重要。

The 指出，得益于即将推出的定价模式，一贯“烧钱”的今年预计将迎来数十亿美元的收入。

如果客户通过预付费预定，就能享受高达 50% 的折扣。这种预订方式的折扣在云计算领域很常见，像 Azure、 Cloud 和 Web 都有这样的优惠。

此前，已经为开发者提供了一种降低成本的方法，其在 4 月份推出新的应用程序编程接口——Batch API。如果开发者愿意批量上传模型查询并等待最长达 24 小时，就能享受到更便宜的价格。

一些 AI 服务器经销商曾表示，在他们的软件上运行开源模型比使用的模型便宜六倍。而这种更灵活的定价，将有助于更好地与其他模型开发人员和 AI 服务器经销商竞争。

更重要的是，知情人士还透露，可能会在年底前完成 GPT-5 的开发并公开发布。

的大招，或许早已埋下伏笔

在生成式 AI 的赛道上一路狂奔，将所有的竞争对手们远远地甩在身后。

去年 12 月份，挟 AI 大潮而来，发布了当时号称史上最强大模型 1.0。超大杯在视频 demo 中，上至识别图像、玩石头剪刀布，下至人性化语音交流，都表现得游刃有余，但仅仅一天时间，视频就被曝出“造假”的丑闻。

此后，大模型不断迭代升级，但依然并没有达到理想的程度。直到 1.5 Pro 的出现，除了分析图像和文本，还能一次性处理长达 9.5 个小时的音频，捕捉音频当中的语调情绪等。

正如上文所说，The 的报道中着重提到的语音助手能够听懂别人的语气。现在，即将发布的 AI 语音助手似乎也有意定点狙击 1.5 Pro 的这项特长。

对的另一重打击则潜藏在冰山之下，尽管否认本次直播的重头戏并不是 AI 搜索引擎，但也没否认 AI 搜索引擎存在的可能性。

早些时候在接受采访时说到，世界不需要另一个，并对利用广告盈利的方式嗤之以鼻。现在看来，他似乎已经为找到了一条新路。

至于的 AI 语音助手会是什么样子，我们现在还不得而知，但前段时间 Hume AI 向大众开放的旗下产品——同理心语音界面（EVI），给我们打了个样，其判断情绪的能力甚至被誉为可能是未来 Siri 的样子（具体可回看 APPSO 此前的文章：第一个具有情商的聊天机器人来了，这可能是未来 Siri 的样子）。

从 EVI 的身上，我们或许也能看到语音助手的雏形，那就是更通人性，更有人味。和 EVI 聊天的体验更接近和真人交流。

不过，抱着赢家通吃的法则，下周推出的 AI 语音助手也很有可能将 EVI 扼杀在摇篮里。

最近 AIPRM 首席工程师 Tibor Blaho 也在社交平台 X 上曝光了即将到来的功能和界面。

其中，的网页版将新增一个语音模式功能。这个功能会在页面顶部的导航栏添加一个语音按钮，用户可以通过这个按钮交互式地启动或结束对话。在对话进行时，系统还会实时将语音转换成文字。

同时，自定义的 GPT（小部件）、模型、写作、上下文连接器、浏览和数据分析功能也一应俱全，有望为 AI 语音助手能力的涌现打好“地基”。

您目前设备暂不支持播放

比起与等竞争对手的剑拔弩张，与苹果的关系显得融洽多了。

彭博社昨日报道称，即将与苹果达成合作协议，将服务整合到 iOS 18 操作系统。届时，视觉和音频功能改进后的生成式 AI 将有望大幅改进 Siri。

《纽约时报》报道称，苹果两名高管在去年初花了数周时间测试的之后，便作出了给语音助手 Siri 进行“大脑移植”的决定。

改进后的 Siri 将于今年 6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广，其 Siri 的底层技术将包括一个新的生成式 AI 系统，支持聊天功能，而不是一次回答一个问题。

而这个生成式 AI 系统的角色，很有可能正是由下周亮相的 AI 技术扮演。

在用户的产品体验中，效率是最直接的语言。

前阿里顶级 AI 科学家贾扬清对的新 AI 搜索功能赞不绝口，因为相较于其他的 AI 搜索引擎/答案引擎，只有能够真正做到访问实际地址，让答案触手可及。

这种省却繁琐步骤的行为和当红 AI 炸子鸡 R1 追捧的理念如出一辙。尽管 R1 在众声唾骂中沦为中看不中用的鸡肋产品，但其所谓的大行为模型（LAM）提到的核心理念依然值得学习，即理解人类的意图，转化为可操作的步骤并实时响应。

在“Siri 之父”Dag 等人的最初构想中，也提出过相似的概念：Siri 应该是一个能够迅速而精准地获取信息的助手，一个能够熟练处理各种复杂任务的智能助理。

如今，下周亮相的 AI 语音助手或许有望帮助苹果实现最初版 Siri 的愿景。

有趣的是，我们在两个月前报道过，一些企业客户已经提前体验了最新模型的演示以及与之相配套的增强功能。

一位体验过 GPT-5 版本的 CEO 提到，暗示了模型其他尚未公开的特性，包括能够调用正在开发的 AI 代理来自动执行任务。

另外有报道指出，与前苹果首席设计师 Jony Ive 正致力于推出一款 AI 硬件，可能会从投资者那里筹集高达 10 亿美元的资金。其中对话式 AI 技术有望成为该设备某些功能的核心。

如今看来，这些或许也是早早埋下的伏笔。

此前，在接受采访时卖关子说，在创造出 AGI 之前，将会有一大堆疯狂爆炸的事情发生。下周发布的新产品不外乎是这当中的小小一笔。

更多具体的信息，仍有待下周揭晓。现在只需调好闹钟，届时 APPSO 将带来最新的报道。

OpenAI

不是GPT-5，而是AI语音助手？

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号