斯坦福大学 AI 团队被指抄袭中国大模型创业公司,引发业内关注

aixo 2024-06-05 09:10:08
大模型 2024-06-05 09:10:08

本文字数:1680,阅读时长大约3分钟

导读:斯坦福大学AI团队疑似抄袭中国大模型创业公司的消息引发业内高度关注。

作者 | 第一财经 吕倩

近日,斯坦福大学AI团队疑似抄袭中国大模型创业公司的消息引发业内高度关注。

6月3日,面壁智能CEO李大海与联合创始人刘知远先后发文,回应开源模型被斯坦福大学AI团队抄袭一事。李大海表示:“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”

5月29日,一个来自斯坦福的AI团队开始在网络上宣传500美元就能训练出一个SOTA 多模态模型,该模型名为-V,作者声称-V比GPT-4V、 Ultra、 Opus 性能更强。公开资料显示,团队两位成员是来自斯坦福大学的本科生,曾发表多篇机器学习领域论文,实习经历包括了AWS、等。

由于该团队成员拥有斯坦福、特斯拉等亮眼背景,-V项目很快冲到 (一个开发者社区和平台)首页,并引发开发者群体的关注。

一位用户在社交平台X 与 上质疑 llama-3V 是否套壳--V 2.5 ,后者为面壁智能推出的开源端侧多模态模型,于 2024 年 5 月 21 日发布。

Llama-3V 团队彼时回应,他们只是使用了 --V 2.5 的(分词器,自然语言处理中的一个重要组成部分),并在 --V 2.5 发布前就开始了这项工作。但团队并未解释如何做到在--V 2.5发布之前就获取详细的具体方式。

但随后,关于上述AI团队抄袭的声音越来越多。比如,-V的模型结构和配置文件与--V 2.5完全相同,只是进行了一些重新格式化并将部分变量重新命名,如图像切片、分词器、重采样器、数据加载等变量。-V也具有与- 2.5相同的分词器,包括--V 2.5新定义的特殊符号。

据 页面显示,最初-V的作者在上传代码时直接导入了 -V 的代码,然后将名称更改为 -V。但作为其中一个作者, (穆斯塔法·阿尔贾德里)并不认为该行为属于抄袭。他发文称,-v推理存在bug,并不是抄袭。“我已经指出了架构是相似的,但的架构来自Idéfics,我们遵循Idéfics论文中的那些内容。架构是基于综合研究的,你怎么能说它是呢?代码的视觉部分看起来也是从Idéfics那里使用的。”

▲清华简识别,圈红为正确答案

在李大海看来,另一证据在于-V同样使用了面壁智能团队新设置的清华简识别能力(清华大学于2008年7月收藏的一批战国竹简),且呈现的做错案例都与一模一样,而这一训练数据尚未完全公开。李大海称,这项工作是团队同学耗时数个月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中的。更加微妙的是,两个模型在高斯扰动验证(一种用于验证模型相似性的方法)后,在正确和错误表现方面都高度相似。

▲作者之一解释删库原因

目前,上述斯坦福AI团队已对 上的-V模型进行隐藏处理,作者解释该动作时表示:“我是为了修复模型的推理问题而将其隐藏,因为模型必须有特定的配置运行。”

“非常抱歉,我删除了它们,因为推理代码还没有准备好,每个人都有运行错误。我觉得人们现在最好不要用。你必须有特殊的配置。我一修好就把它放回去。”上述团队回应。

记者向作者团队之一的 发送邮件,询问删库动作的具体原因,以及后续在满足什么条件后会进行大模型的恢复。截至发稿前,暂未得到回应。

刘知远对此事评论称,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的 --V 2.5 就用了最新的 作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,-V团队无疑严重破坏了这一点。他们在受到质疑后已在删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

刘知远表示,国内大模型团队如智谱-清华GLM、阿里Qwen、和面壁-清华正在通过持续的开源共享,在国际上受到了广泛的关注和认可,“这次事件也算侧面反映出,我们的创新成果也一直受到国际关注。”刘知远说。