全球首款实时生成式语音 AI，Moshi 超越 OpenAI，拥有 70 种情绪和风格

aixo 2024-07-04 10:32:33

2024-07-04 10:32:33

本文作者｜李丹

被超越了，而且还是“栽在”已经公开演示过的语音助手上。

当地时间7月3日周三，法国独立非盈利AI研究实验室公开演示了一款语音助理Moshi的实验性原型。介绍，Moshi由该实验室的八人研究团队耗时六个月从零开始开发，是全球首款全体大众都可使用的实时生成式语音AI。

Moshi具有多种类似人类的情绪。的科学家们表示，Moshi系统能够带着70种情绪和风格讲话。他们现场演示了，Moshi如何就攀登珠穆朗玛峰提供建议，还让Moshi用浓重的法国口音朗诵一首它自己创作的诗歌。

宣布，周二晚些时候可在其网站查看Moshi的交互式演示。从周二起，就可以在线免费测试Moshi。致力于为AI的开放研究和整个生态系统的发展做出贡献，Moshi模型的代码和权重将很快免费共享，这对于此类技术来说也是前所未有的。的一名代表表示，Moshi模型和相关研究将在未来几周内发布，没有透露具体日期。

认为，Moshi有潜力彻底改变数字世界中语音的使用方式，并举例称，在表达情感和多种声音之间的互动方面，它的文本转语音功能非常出色。

的CEO Pérez称，Moshi可以“边说话边思考”，还说“我们相信 Moshi 具有巨大的潜力，可以改变我们与机器交流的方式。”

研究者Lucas Beyer在社交媒体发帖评论，的Moshi是首个实时音频大语言模型（LLM）。的演示种，Moshi基本上没有延迟，甚至还打断了演讲者几次。它实际上有点急于快速回答。而且Moshi是全部开源的。虽然声音质量还有点机械化，但作为初版，它还是表现不错。总体来说很酷。

Beyer指出，演示时，在苹果电脑设备上的模型有一些实时拒绝误报，也许对安全调整有点太急切了。然而，这只是证实了演示确实是实时的，甚至可能是自由发挥的，他喜欢这点。

有网友评论称，有趣的是，看到日语单词以赛博朋克的方式融入西方文化。在日语中，的意思是球体，moshi 是电话里的口语问候语，所以这两者结合起来就是“你好球体”。

Moshi被视为的最新挑战者。包括、和谷歌在内，越来越多初创公司和科技巨头推出模型与GPT-4 竞争，尽管一些行业专家担心这项新兴技术带来危险。

Moshi的问世让成为抢跑推出语音助手的先锋。之前打算在机器人聊天工具上提供类似功能，不到两个月前正式向公众展示了基于GPT-4升级版GPT-4o模型的语音助手。

在今年5月中展示过程中，语言助手表现得像一个真正的成年人，能听能说能看，还能有情绪变化，最关键是几乎可以即时回应请求。它不仅可以讲睡前故事，能通过外表观察人的情绪变化，还能像一位朋友般安抚人紧张的情绪，甚至还可以像个经验丰富的数学老师般指导解代数方程，让一些观众联想到了2013年电影《她》中的AI虚拟助手。

但一个多月后，又宣布因安全顾虑推迟发布上述语音助手。6月25日上周二，在社交媒体发帖称，推迟上线语音助手功能是因为，需要确保它能安全有效地处理来自数百万用户的请求，还需要一个月才能达到公司的发布标准。

有网友本周二评论称，推出Moshi基本上等于，把还没公开发布的客户产品开源了，向致敬。

不同于微软150亿美元支持的“美系”资本背景，致力于研究通用AI，去年11月“出生”起得到合计3亿欧元支持，其中主要来自欧洲实业资本。

是法国亿万富翁 Niel去年表示将对AI领域投资2亿欧元的投资对象之一。Niel旗下的电信集团Iliad去年公布，将为项目投入1亿欧元。另一位法国亿万富翁、法国航运和物流巨头CMA CGM的CEO Saadé也对投资了1亿欧元。前谷歌CEO Eric 也参与了的投资，未披露金额。

Niel本周二表示，Moshi表明，欧洲可以成为AI发展的全球参与者。“今天展示的所有产品都是全球一流的，我们很高兴能在欧洲推出这款产品。”

在安全方面，的首席科学官 Hervé Jégou介绍，将使用索引和水印工具识别和跟踪其 AI 生成的音频。

GPT

全球首款实时生成式语音 AI，Moshi 超越 OpenAI，拥有 70 种情绪和风格

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号