国内首个对标 GPT-4o 的日日新 5o 模型发布,开启全新 AI 交互模式
对标 GPT-4o的中国版本来了!
7月5日举行的2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)分论坛上,国内AGI公司商汤科技发布日日新大模型5.5系列。
其中,最引发关注的,是国内首个所见即所得、实时流式多模态交互模型“日日新5o”,交互体验对标GPT-4o,实现全新AI交互模式。另外,全新日日新5.5的模型参数规模达6000亿,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o,同时也是国内对标GPT-4 Turbo领先的国产大模型之一。
商汤科技董事长兼CEO徐立在演讲中表示,大模型本质意义上是在做一个记忆的事情,记住世界的知识,而它有的一点智力完全是来自于对于知识背后高阶的思维逻辑和记忆;同时,行业要进行变化,交互模式一定是先行的;另外,基于手机旗舰平台,端侧5.5 Lite模型版本性能精度提升10%、首包延迟下降40%、推理效率提升15%,达到每秒90.2个汉字的处理速度。因此,商汤在模型上面的能力,实际上还是在日日新,不停地迭代和演进。
徐立还透露,为了让更多企业用户低门槛接入并使用“日日新”大模型体系能力,商汤于近期推出了“大模型0元Go”计划。凡是“日日新”的新注册用户,都可获得涉及调用、迁徙、训练等多项免费服务大礼包。同时,商汤还将免费赠送5000万包,并且派出专属搬家顾问,帮助用户实现零服务成本迁移。
实际上,最近一年多,商汤持续扩大 AI 大模型投入力度,确立了“模型即服务”的商业模式,通过“大模型+大装置”推动实现通用人工智能(AGI)目标。
今年3月,商汤科技董事长兼CEO徐立表示,在 Law(尺度规律)指引下,大模型正处于技术革命与性能提升的黄金时期。自2023年发布以来,商汤“日日新”大模型的能力每隔三个月都会有显著提升,实现了万卡万参的大模型训练能力,在基础模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。
据2023年财报数据,商汤“日日新”大模型+大装置驱动生成式AI业务爆发式增长200%,收入达12亿元,贡献了35%的营收。这是商汤成立十年以来,以最快速度从无到有、超过10亿元收入体量的业务。
业务层面,2024年上半年,商汤通过其大模型技术与多家行业头部企业达成紧密合作。例如金山办公的WPS AI通过整合商汤的大模型技术,实现了办公软件的智能化升级;小米公司的小爱同学业务在商汤大模型技术的助力下,用户体验得到了显著提升;海通证券与商汤合作,构建金融AI应用推动数字化升级;阅文集团通过结合商汤科技的拟人大模型技术,打造AI 的虚拟社交生态平台——筑梦岛。
徐立表示,商汤的大模型自从文本开始,拓展至代码办公、拟人对话、金融、农业等多个垂直行业,推出专属模型和一体机,使客户能高效、经济地使用AI大模型。目前,商汤大模型已有超3000家客户。
“现在的认知其实还是在于,说如何用大模型去赋能行业,而且我认为,我们处在一个很重要、关键的转折节点,也就是接下来 AI 的超级时刻,有赖于我们共同去营造超级应用。”徐立表示。
整体来说,全新商汤日日新大模型5.5版本,在原生多模态能力下按场景需求可提供纯语言、多图理解、4o语音、文生图、代码/办公小浣熊、拟人、端侧模拟、行业模型等多模态、多版本、强场景Agent形态。
商汤披露,截至目前,已有超过两百家企业选择使用商汤代码小浣熊工具,此次升级的小浣熊模型响应速度提升达5倍;同时,办公小浣熊支持端侧落地;基于“日日新5.5”大模型驱动下,从5月到今天,全新商汤拟人模型版本的平均使用时长在SDK调用下日均达到130分钟,次日留存可以有50%以上,且人均的对话人数超过90次;另外,全新端侧模型性能不断提升,支持手机、平板、一体机、车载等终端设备,甚至还支持元萝卜智能台灯。
另外,商汤早前还发布国内首个“可控”人物视频生成大模型Vimi,也就是“图生视频”产品,仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
会前交流时,商汤研究院研发总监卢乐炜 向钛媒体AGI等透露,目前商汤日日新的多模态模型就是迈向对于视频理解、对真实世界理解。“在视频指标方面,我们的模型跟目前的 SOTA 的方法相比,有一个10%-20% 的提升。”
“性能提升需要模型有相当大的规模。另外,如何更快速地训练一个更大(参数)规模的模型,无论从算法、设计还有工程的配合,都需要很大的工作量,所以我们过去两个月一直在持续攻关。”卢乐炜表示。
徐立强调,商汤持续推进模型应用,端侧大模型的 API 接入价格将达到每台设备、每年9.9元。
目前,商汤在多模态、基础模型、文生图、文生视频、拟(数字)人模型、行业垂直模型、端侧模型、开源模型等热门技术上均有涉猎和持续迭代,同时也在不断调整优化整体研发和商业化节奏。钛媒体AGI了解到,预计V6版本将会在今年内公布。
“所有的智能音箱、智能车载、智能眼镜,大家都来接上我们的端侧大模型,真正让大家用得起 AI 大模型,AI才会进入它的超级时刻。”徐立在演讲结尾表示。