OpenAI 发布 GPT-4o 模型,音频理解能力引关注
的旗舰模型 GPT-4o("o" 代表 "omni")在五月份发布时,其音频理解能力备受瞩目。GPT-4o 模型能够以平均320毫秒的速度回应音频输入,这与人类在典型对话中的反应时间相似。
还宣布, 的语音模式功能将利用 GPT-4o 模型的音频能力,为用户提供无缝的语音对话体验。关于 GPT-4o 的语音能力, 团队写道:
"通过 GPT-4o,我们训练了一个全新的模型,将文本、视觉和音频三种模态进行端到端的训练,也就是说,所有的输入和都由同一个神经网络处理。由于 GPT-4o 我们首个结合所有这些模态的模型,我们仍然只是初步探索了模型的潜力和限制。"
在六月份, 宣布,计划将先进的语模式在晚些时候向一小部分 Plus 用户进行 Alpha 版推出,但由于需要改进模型检测和拒绝某些内容的能力,该计划被推迟了一个月。此外, 还在准备其基础设施,以便在保持实时响应的同时扩展到数百万用户。
现在, 的 CEO Sam 通过 X 证实,语音模式的 Alpha 版将于下周开始向 Plus 订阅者推出。
目前的 语音模式由于平均延迟为2.8秒(GPT3.5)和5.4秒(GPT-4),使用起来并不直观。基于 GPT-4o 的即将推出的先进语音模式将允许 订阅者进行无延迟的流畅对话。
另外, 今天还发布了备受期待的 ,这是他们对网络搜索体验的新尝试。目前 还是一个原型,它提供了人工智能搜索功能,可以从清晰和相关的来源中快速提供准确的答案。你可以在这里了解更多。
划重点:
- Plus 订阅者将在下周获得全新的语音模式功能,实现无延迟的流畅对话体验。
- GPT-4o 模型结合了文本、视觉和音频三种模态的训练,为 探索了更多潜力和限制。
- 还发布了 ,提供了快速准确的人工智能搜索功能。
备注:资讯来源基地
副业搞钱交流群
欢迎大家加入交流群, 扫码进入,畅谈AI赚钱心得,共享最新行业动态,发现潜在合作伙伴,迎接未来的赚钱机遇!。