全球首款实时生成式语音 AI,Moshi 超越 OpenAI,拥有 70 种情绪和风格
本文作者|李丹
被超越了,而且还是“栽在”已经公开演示过的语音助手上。
当地时间7月3日周三,法国独立非盈利AI研究实验室公开演示了一款语音助理Moshi的实验性原型。介绍,Moshi由该实验室的八人研究团队耗时六个月从零开始开发,是全球首款全体大众都可使用的实时生成式语音AI。
Moshi具有多种类似人类的情绪。的科学家们表示,Moshi系统能够带着70种情绪和风格讲话。他们现场演示了,Moshi如何就攀登珠穆朗玛峰提供建议,还让Moshi用浓重的法国口音朗诵一首它自己创作的诗歌。
宣布,周二晚些时候可在其网站查看Moshi的交互式演示。从周二起,就可以在线免费测试Moshi。致力于为AI的开放研究和整个生态系统的发展做出贡献,Moshi模型的代码和权重将很快免费共享,这对于此类技术来说也是前所未有的。的一名代表表示,Moshi模型和相关研究将在未来几周内发布,没有透露具体日期。
认为,Moshi有潜力彻底改变数字世界中语音的使用方式,并举例称,在表达情感和多种声音之间的互动方面,它的文本转语音功能非常出色。
的CEO Pérez称,Moshi可以“边说话边思考”,还说“我们相信 Moshi 具有巨大的潜力,可以改变我们与机器交流的方式。”
研究者Lucas Beyer在社交媒体发帖评论,的Moshi是首个实时音频大语言模型(LLM)。的演示种,Moshi基本上没有延迟,甚至还打断了演讲者几次。它实际上有点急于快速回答。而且Moshi是全部开源的。虽然声音质量还有点机械化,但作为初版,它还是表现不错。总体来说很酷。
Beyer指出,演示时,在苹果电脑设备上的模型有一些实时拒绝误报,也许对安全调整有点太急切了。然而,这只是证实了演示确实是实时的,甚至可能是自由发挥的,他喜欢这点。
有网友评论称,有趣的是,看到日语单词以赛博朋克的方式融入西方文化。在日语中, 的意思是球体,moshi 是电话里的口语问候语,所以这两者结合起来就是“你好球体”。
Moshi被视为的最新挑战者。包括、和谷歌在内,越来越多初创公司和科技巨头推出模型与GPT-4 竞争,尽管一些行业专家担心这项新兴技术带来危险。
Moshi的问世让成为抢跑推出语音助手的先锋。之前打算在机器人聊天工具上提供类似功能,不到两个月前正式向公众展示了基于GPT-4升级版GPT-4o模型的语音助手。
在今年5月中展示过程中,语言助手表现得像一个真正的成年人,能听能说能看,还能有情绪变化,最关键是几乎可以即时回应请求。它不仅可以讲睡前故事,能通过外表观察人的情绪变化,还能像一位朋友般安抚人紧张的情绪,甚至还可以像个经验丰富的数学老师般指导解代数方程,让一些观众联想到了2013年电影《她》中的AI虚拟助手。
但一个多月后,又宣布因安全顾虑推迟发布上述语音助手。6月25日上周二,在社交媒体发帖称,推迟上线语音助手功能是因为,需要确保它能安全有效地处理来自数百万用户的请求,还需要一个月才能达到公司的发布标准。
有网友本周二评论称,推出Moshi基本上等于,把还没公开发布的客户产品开源了,向致敬。
不同于微软150亿美元支持的“美系”资本背景,致力于研究通用AI,去年11月“出生”起得到合计3亿欧元支持,其中主要来自欧洲实业资本。
是法国亿万富翁 Niel去年表示将对AI领域投资2亿欧元的投资对象之一。Niel旗下的电信集团Iliad去年公布,将为项目投入1亿欧元。另一位法国亿万富翁、法国航运和物流巨头CMA CGM的CEO Saadé也对投资了1亿欧元。前谷歌CEO Eric 也参与了的投资,未披露金额。
Niel本周二表示,Moshi表明,欧洲可以成为AI发展的全球参与者。“今天展示的所有产品都是全球一流的,我们很高兴能在欧洲推出这款产品。”
在安全方面,的首席科学官 Hervé Jégou介绍,将使用索引和水印工具识别和跟踪其 AI 生成的音频。