大模型的实时音视频交互成趋势RTC成关键能力

aixo 2024-05-20 14:33:04

2024-05-20 14:33:04

北京时间5月14日凌晨，发布了新一代旗舰生成模型 GPT-4o，这是一款真正的多模态大模型，可以「实时对音频、视觉和文本进行推理」。核心亮点包含：支持与 AI 实时语音对话，且响应时间达到毫秒级；交互中可识别人类情绪并以相应的情感做出回应；多语言能力的提升。

包括 CEO 山姆·奥特曼在内的很多人都联想到了科幻电影《Her》里那个幽默风趣、善解人意、似有心灵感应一般的 AI，GPT-4o 在语音视频上的交互能力，让科幻正在加速走向现实。

大模型的实时音视频交互成趋势 RTC成关键能力

相比于 GPT3.5、GPT4，GPT-4o 最核心的区别在于文本、视觉和音频由同一个神经网络处理，不仅降低了延时，还捕捉到了更多的信息。此前基于 GPT3.5或 GPT4的 AI语音助手是通过 STT 将语音转成文字再输入给大模型，大模型生成文本响应后再通过 TTS 输出语音给到用户，平均延时达到2.8秒（GPT-3.5）和5.4秒（GPT-4）。而GPT-4o 直接将语音实时输入给大模型，并大幅提升响应时间，最终实现了与真人聊天一样自然流畅，AI的处理反应已经达到人类的高度和速度，而实现这一跨越式技术进步的关键，一是大模型的进化，二是RTC能力的应用。

GPT-4o 的发布引起了业界的广泛关注与强烈讨论，也透露出一个重要的信号：支持端到端实时多模态将成为当下大模型发展的新趋势，实时文本、音视频传输能力，将成为实时大模型的标配。在 GPT-4o 的推动引领下，未来其他大模型厂商或将快速跟进，提供端到端实时多模态能力。

未来大模型的AI交互将更具真实感

GPT-4o 还有一大核心亮点就是支持实时视频输入，通过前置摄像头设别你周围的环境，观察用户的面部表情，分析其情绪，再根据场景生成多种音调 Tones，带有人类般的情绪和情感，如兴奋、冰冷、含羞等，通过实时视频输入还能让它在线解答各种问题，支持数学运算、游戏输赢判断等。

通过实时语音、视频输入信息的理解和高度拟人化的语音输出，GPT-4o 所呈现的 AI 交互更具真实感与沉浸感，这也是所有大模型一直在发力的方向，未来借助低延时、高音质的 RTC 技术，有望打造更极致的人与 AI 交互体验。

图：相比 -v3，GPT-4o 在语音识别性能方面有了大幅提升

图：GPT-4o 的视觉理解评估能力也遥遥领先

在大模型的应用场景方面，除了已经在应用的AI口语老师、AI电话客服、AI社交陪聊场景，未来实时互动+AI+智能硬件也有望诞生新的场景。想象一下，一款加载了GPT4o 的智能眼镜或耳机可以变成你工作中的助手，解答各类难题，也可以是生活中的“倾听者”陪你聊天，也可以是旅游中的虚拟导游，为你提供视觉攻略，这很可能是下一个时尚与科技兼具的爆款硬件。

在GPT-4o 发布后，很多网友也提到了 GPT-4o 的社会公益价值，例如大模型通过智能眼镜的摄像头开启视觉能力后，可以给盲人带来精准的路线导航，盲人通过与搭配大模型的智能眼镜对话问路，智能眼镜在识别人周围的环境后，做出最精准的路线指引。

声网 AIGC 一站式音视频解决方案

针对大模型的交互能力，声网目前已可以提供基于大模型的全链路实时音视频方案，可以帮助大模型厂商构建实时音视频互动的能力，用户可通过麦克风与 AI 进行语音、视频形式的实时互动，并且对话中做到行业内遥遥领先的低延时对话体验。

声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK，并支持模块化能力的灵活拼装，包含 RTC 实时音视频、实时消息等多种能力，并支持 API 快速调用，提供开箱即用的场景化 Demo，最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言，可以节省很多开发时间。

如您想进一步了解声网的 AIGC一站式音视频解决方案，可以在声网公众号找到这篇文章，扫描文章底部的二维码进一步咨询。

大模型

大模型的实时音视频交互成趋势RTC成关键能力

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号