不是GPT-5,而是AI语音助手?

aixo 2024-05-12 22:23:32
大模型 2024-05-12 22:23:32

随着 和 Llama 模型相继进入“3”时代,本该早早提上日程的 GPT-4.5/5 却迟迟不露面。

不过,别急,在大餐到来之前,一些开胃小菜已经准备好了。昨日凌晨, 宣布将于 5 月 13 日太平洋时间 10:00 直播演示一些关于 的大更新。

随后, CEO Sam 引述该消息帖子称:

不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些大家会喜欢的新东西!对我来说,它就像魔法一样。

openai是哪个公司的_OpenAI_openai国内版

不是GPT-5,不是AI搜索引擎,而是AI语音助手?

为啥要特意强调新品不是 AI 搜索引擎呢?这得从最近传出的一则小道消息说起。

上周,有风声传出, 正准备推出一款 AI 搜索引擎,并且矛头直指 下周即将召开的 I/O 大会,一时间让无数翘首以待的吃瓜群众迎来了久违的亢奋。

遗憾的是, 的帖子给这则流言画上了终止符号,发布会的确如预测般如期举行,但 AI 搜索引擎并不是主角,甚至连配角的位置都未必能拿到。

真正的主角已经在 The 的爆料中泄露了一些关键踪迹。

报道称 下周可能会展示一种新 AI 技术:它不仅能通过声音和文字跟人交流,还能识别物体和图像,并且逻辑推理能力也比现在市面上的产品要强。

这也是 一直在追求的目标,他想要开发出一种超级智能的 AI,像电影《Her》里的虚拟助手一样,能让 Siri 等现有的语音助手变得更有用。

其语音助手能做的事情可不止一星半点,比如帮学生辅导作业,或者在需要的时候告诉你周围环境的信息,又或者翻译个标志,教你怎么修车。

目前,这项技术已经在客服行业“攻城拔寨”。知情人士透露,新技术的音频功能可以让这些 AI 自动代理更好地理解来电者的语气,甚至还能判断他们是否在“阴阳怪气”。

实际上, 在转录音频和文本转语音等领域早有建树,无论是上个月推出的“语音引擎”(Voice ),还是更早些时候发布的 TTS(文本转语音)软件,都有着不俗的表现。

而爆料者称,新模型将把这些功能合二为一,构建一个更懂图像和音频的多模态模型,响应速度也更快。

作为 的最大金主,微软也考虑用该技术来提升语音助手,或者想办法让这些技术能在更小的设备上运行,比如可穿戴设备。

目前尚不清楚 什么时候会把这个新功能开放给付费用户,但知情人士透露, 的最终打算是将这些功能添加到免费版里。

不过,由于这些模型参数规模庞大,现在只能在云端运行,并且还需要互联网连接。要让复杂的对话 AI 变得足够小,支持在设备上运行,可能还需要数月甚至数年的时间。

除了备受关注的新模型,一些爆料的细枝末节同等重要。

The 指出,得益于即将推出的定价模式,一贯“烧钱”的 今年预计将迎来数十亿美元的收入。

如果客户通过预付费预定 ,就能享受高达 50% 的折扣。这种预订方式的折扣在云计算领域很常见,像 Azure、 Cloud 和 Web 都有这样的优惠。

此前, 已经为开发者提供了一种降低成本的方法,其在 4 月份推出新的应用程序编程接口——Batch API。如果开发者愿意批量上传模型查询并等待最长达 24 小时,就能享受到更便宜的价格。

一些 AI 服务器经销商曾表示,在他们的软件上运行开源模型比使用 的模型便宜六倍。而这种更灵活的定价,将有助于 更好地与其他模型开发人员和 AI 服务器经销商竞争。

更重要的是,知情人士还透露, 可能会在年底前完成 GPT-5 的开发并公开发布。

的大招,或许早已埋下伏笔

在生成式 AI 的赛道上一路狂奔,将所有的竞争对手们远远地甩在身后。

去年 12 月份, 挟 AI 大潮而来,发布了当时号称史上最强大模型 1.0。 超大杯在视频 demo 中,上至识别图像、玩石头剪刀布,下至人性化语音交流,都表现得游刃有余,但仅仅一天时间,视频就被曝出“造假”的丑闻。

此后, 大模型不断迭代升级,但依然并没有达到理想的程度。直到 1.5 Pro 的出现,除了分析图像和文本,还能一次性处理长达 9.5 个小时的音频,捕捉音频当中的语调情绪等。

正如上文所说,The 的报道中着重提到 的语音助手能够听懂别人的语气。现在, 即将发布的 AI 语音助手似乎也有意定点狙击 1.5 Pro 的这项特长。

对 的另一重打击则潜藏在冰山之下,尽管 否认本次直播的重头戏并不是 AI 搜索引擎,但也没否认 AI 搜索引擎存在的可能性。

早些时候在接受采访时说到,世界不需要另一个 ,并对 利用广告盈利的方式嗤之以鼻。现在看来,他似乎已经为 找到了一条新路。

至于 的 AI 语音助手会是什么样子,我们现在还不得而知,但前段时间 Hume AI 向大众开放的旗下产品——同理心语音界面(EVI),给我们打了个样,其判断情绪的能力甚至被誉为可能是未来 Siri 的样子(具体可回看 APPSO 此前的文章:第一个具有情商的聊天机器人来了,这可能是未来 Siri 的样子)。

从 EVI 的身上,我们或许也能看到 语音助手的雏形,那就是更通人性,更有人味。和 EVI 聊天的体验更接近和真人交流。

不过,抱着赢家通吃的法则, 下周推出的 AI 语音助手也很有可能将 EVI 扼杀在摇篮里。

最近 AIPRM 首席工程师 Tibor Blaho 也在社交平台 X 上曝光了 即将到来的功能和界面。

其中, 的网页版将新增一个语音模式功能。这个功能会在页面顶部的导航栏添加一个语音按钮,用户可以通过这个按钮交互式地启动或结束对话。在对话进行时,系统还会实时将语音转换成文字。

同时,自定义的 GPT(小部件)、模型、写作、上下文连接器、浏览和数据分析功能也一应俱全,有望为 AI 语音助手能力的涌现打好“地基”。

您目前设备暂不支持播放

比起与 等竞争对手的剑拔弩张, 与苹果的关系显得融洽多了。

彭博社昨日报道称, 即将与苹果达成合作协议,将 服务整合到 iOS 18 操作系统。届时,视觉和音频功能改进后的生成式 AI 将有望大幅改进 Siri。

《纽约时报》报道称,苹果两名高管在去年初花了数周时间测试 的 之后,便作出了给语音助手 Siri 进行“大脑移植”的决定。

改进后的 Siri 将于今年 6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广,其 Siri 的底层技术将包括一个新的生成式 AI 系统,支持聊天功能,而不是一次回答一个问题。

而这个生成式 AI 系统的角色,很有可能正是由 下周亮相的 AI 技术扮演。

在用户的产品体验中,效率是最直接的语言。

前阿里顶级 AI 科学家贾扬清对 的新 AI 搜索功能赞不绝口,因为相较于其他的 AI 搜索引擎/答案引擎,只有 能够真正做到访问实际地址,让答案触手可及。

这种省却繁琐步骤的行为和当红 AI 炸子鸡 R1 追捧的理念如出一辙。尽管 R1 在众声唾骂中沦为中看不中用的鸡肋产品,但其所谓的大行为模型(LAM)提到的核心理念依然值得学习,即理解人类的意图,转化为可操作的步骤并实时响应。

在“Siri 之父”Dag 等人的最初构想中,也提出过相似的概念:Siri 应该是一个能够迅速而精准地获取信息的助手,一个能够熟练处理各种复杂任务的智能助理。

如今, 下周亮相的 AI 语音助手或许有望帮助苹果实现最初版 Siri 的愿景。

有趣的是,我们在两个月前报道过,一些企业客户已经提前体验了最新模型的演示以及与之相配套的 增强功能。

一位体验过 GPT-5 版本的 CEO 提到, 暗示了模型其他尚未公开的特性,包括能够调用 正在开发的 AI 代理来自动执行任务。

另外有报道指出, 与前苹果首席设计师 Jony Ive 正致力于推出一款 AI 硬件,可能会从投资者那里筹集高达 10 亿美元的资金。其中 对话式 AI 技术有望成为该设备某些功能的核心。

如今看来,这些或许也是 早早埋下的伏笔。

此前, 在接受采访时卖关子说,在 创造出 AGI 之前,将会有一大堆疯狂爆炸的事情发生。下周发布的新产品不外乎是这当中的小小一笔。

更多具体的信息,仍有待下周揭晓。现在只需调好闹钟,届时 APPSO 将带来最新的报道。