科大讯飞抢先 OpenAI 发布语音大模型，对标 GPT-4 实时音视频对话功能

aixo 2024-08-19 19:53:43

2024-08-19 19:53:43

新京报贝壳财经讯（记者罗亦丹）今年5月，曾在发布会上公开了GPT-4o端到端实时音视频对话，其因可以理解人类语音中包含的情感而令人倍感惊艳，首席执行官奥特曼更以科幻电影中的智能助手“Her”来称呼这一产品。

但几个月过去了，期待中的版本“Her”并未公开发布，反倒是中国大模型企业抢先了一步。8月19日，科大讯飞宣布星火语音大模型更新，正式推出星火极速超拟人交互，并将其能力落地在讯飞星火APP“小星畅聊”功能中。

贝壳财经记者注意到，从官方展示效果来看，该产品的整体交互体验自然，且可以随时打断、插话之后秒回、感知人类情绪，显然是对标了的此前发布的语音对话功能。科大讯飞方面表示，讯飞星火版“Her”的到来，代表国产大模型开始从追赶、对标到进行自主创新、走出差异化路线。

作为一家本身就以AI语音技术起家的公司，此次科大讯飞版本的交互产品采用统一神经网络直接实现语音到语音端到端建模，结合讯飞多维度的语音属性解耦表征训练准则，将内容、音色、情感、语言、风格等信息进行解耦训练，使得产品能够更加灵活控制各类元素，让系统快速落地应用。

科大讯飞方面称，根据以上技术创新，8月底星火极速超拟人交互将率先全民开放使用，基于全新端到端框架创新基础上，星火极速超拟人交互目前主要开放语音模态，未来会持续在交互上创新突破。

编辑阎侠

校对柳宝庆

OpenAI