斯坦福 AI 团队抄袭清华系开源大模型，闹剧以公开道歉收场

AI世纪 2024-06-05

2024-06-05

一场斯坦福AI团队抄袭清华系开源大模型的闹剧在海外社交平台上吵得沸沸扬扬，6月3日，此事最终以作者团队向后者公开道歉收场。

5月末，一款名为“-V”的斯坦福团队多模态大模型在开源社区上火了起来，因为创始团队声称其仅用500美元成本，就能基于训练出一个SOTA开源多模态模型，不仅尺寸小（比GPT-4v小100倍），还在性能上比肩GPT-4v、 Ultra、 Opus。

在这一宣传基调下，顶级名校背景外加模型本身的效果，很快就将-V推至聚光灯下，并使其拿下“ ”（一个开源模型社区的榜单）Top 5的成绩。

就在社区还沉浸于这场小小狂欢时，陆续有网友提出质疑，指出-V的架构和代码，与一款来自中国团队的大模型几乎一模一样，即清华系和面壁智能团队联合开发的--V 2.5。

一开始，Llama-3V团队表示他们只是使用了--V 2.5的（分词器），并且宣称在后者发布前就开始了这项工作，但这个解释在时间线上难以成立。同时，作者声称“引用了LLaVA-UHD作为架构”，但相较于此，该项目的具体实现与--V 2.5更为相似。

随后，大量网友发布详细对比，发现两款模型几乎“共享”同一套模型结构和代码，Llama-3V只是对--V 2.5进行了一些重新格式化并把一些变量重新做了命名，比如图像切片、分词器、重采样器、数据加载等变量。此外，前者还使用了与后者完全相同的分词器，包括--V 2.5新定义的特殊符号。

还有网友指出，当运行-V时，作者提供的代码无法上的（包含模型参数的快照或保存点）配合使用，但如果把-V模型权重中的变量名更改为--V 2.5的名称后，模型就可以成功运行-V的代码。

并且，如果在--V 2.5的上添加一个简单的高斯噪声，就会得到一个与-V极为相似的模型。

更关键的是，--V 2.5具备一个实验性功能是识别清华简，这是一种特殊且罕见的战国时期古文字。据悉，相关训练数据的采集和标注均由清华NLP实验室和面壁智能团队完成，相关数据尚未对外公开，然而-V却具有相同能力。

结合种种网友爆料，以及作者团队声称“仅用500美元成本”等信息，Llama-3V抄袭--V 2.5一事几乎成为一个定论。

对此，面壁智能首席科学家刘知远在知乎上发声，表示“已经比较确信-V是对我们--V 2.5套壳”。同时，他指出，开源的--V 2.5是以最新的作为语言模型基座，而开源共享的基石是对开源协议的遵守，对其他贡献者的信任，对前人成果的尊重和致敬，-V团队无疑严重破坏了这一点。

面壁智能CEO李大海也在微信朋友圈发文称，“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式，另一方面也呼吁大家共建开放、合作、有信任的社区环境。”

事实上，在种种证据陆续析出后，-V作者团队首先是删评论和删库，予以非正面回应。但在舆情发酵严重之后，终于在昨日，其中的两名作者Aksh Garg和在X平台联合署名发表正式回应，向原作者道歉，并表示会将-V模型悉数撤下。

随后，斯坦福人工智能实验室主任 David 发文批判了这一抄袭行为，谷歌研究员Lucas Beyer则表示，有趣的是，有同样表现的--V 2.5得到了太少的关注，而这似乎仅仅因为这个模型不是来自一所藤校，“我们都显得太难堪了。”他写道。

Llama