华为盘古遭 “灵魂拷问”:0.927 的参数相似,是巧合还是抄袭?
2025年6月30日,华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型以及基于昇腾的模型推理技术,这本是大模型领域的一大动态,却很快因一场争议被推上风口浪尖。GitHub上一个名为@HonestAGI的用户发布了一项针对盘古大模型的研究,该研究指出华为推出的盘古大模型(Pangu Pro MoE)与阿里巴巴的通义千问Qwen-2.5 14B模型在参数结构上有着极高的相似度,这一说法迅速引发了业界对盘古大模型涉嫌“抄袭”的热议。
HonestAGI通过测试比较发现,Pangu Pro MoE模型与Qwen-2.5 14B模型在注意力参数分布上的平均相关性达到了0.927,这一数值远超业内同类模型对比的正常范围,要知道业内同类模型对比的相关性通常不会超过0.7。由于深度学习模型的训练过程存在高度的随机性,其中涉及复杂的数据采样、权重初始化以及优化路径等多个环节,所以两个模型在众多注意力参数上呈现出近乎一致的分布,其自然发生的概率是极低的。也正因如此,这种极高的相似度让“抄袭”的质疑声立刻蔓延开来。随后,有自称是盘古大模型团队的人在GitHub上做出回应,不仅否认了抄袭的指控,还认为该研究作者的评估方法并不科学。这位团队成员表示,他们使用论文中描述的方法去评估其他相近参数规模的模型,结果显示在该评估方法下,这些模型与Qwen-2.5 14B模型也存在高度相似的结果,这说明该论文以及所采用的指标缺乏实际意义,盘古团队还进一步重申绝对没有抄袭。
对于盘古大模型团队的这番回应,HonestAGI并不信服。HonestAGI称:“盘古仍然显示出最高的相似度。事实上,任何分类问题都有一个阈值来识别决策边界(例如,本例中疑似值为0.9)。这主要是一个用于初步比较的工具,而盘古‘不幸地’在我们开始进一步调查之前触发了这个警告信号。”之后,HonestAGI还提供了Qwen和Hunyuan A13B之间的对比情况,结果显示二者在不同层级上展现出截然不同的内部模式,这表明它们拥有截然不同的架构和学习到的表征。显然,HonestAGI提供这份对比数据,是想证明自己的测试方法并没有问题。不过,目前HonestAGI似乎已经下线了之前关于盘古大模型的研究报告。但HonestAGI在最新的回应中表示:“我们计划在论文最终定稿并提交所有代码后,将其提交给同行评审会议(可能是ICLR或之后的会议)。”另外,有人查询盘古大模型团队官方发布在国内代码托管平台Gitcode(类似国外的Github)上的“盘古Pro”大模型代码时,发现其“Open Source Software Notice”中赫然出现了关于“transformers”组件的版权声明:“Copyright notice:Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Team. All rights reserved.” 显然,这段说明的意思是,其所用到的“transformers”组件的版权所有人是Qwen团队、阿里巴巴集团和HuggingFace团队。而该代码是由“Ascend Tribe”——盘古大模型团队官方发布的,并非其他第三方,由此也有不少网友认为这是“实锤”抄袭的证据。
但业内人士表示,这其实是一份标准的开源声明,当盘古大模型团队使用了第三方开发的开源软件时,根据开源许可的要求,必须向用户说明相关信息,这是应尽的法律义务。在这份声明中,只能表明盘古大模型当中使用了阿里巴巴Qwen团队和HuggingFace共同开发的“transformers”组件,并且使用的是“Apache License 2.0”协议。该协议允许任何人自由地使用、修改和分发该软件,甚至可以用于商业产品中。所以,这份声明只能反映出盘古大模型团队使用了一些开源代码,并且遵守了开源协议,并不能证明存在抄袭行为。7月5日下午16:59分,隶属于华为、负责开发盘古大模型的诺亚方舟实验室发布声明,对于“抄袭”指控进行了官方回应。诺亚方舟实验室表示,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商的模型增量训练而来,在架构设计、技术特性等方面做了关键创新,是全球首个面向昇腾硬件平台设计的同规格混合专家模型,创新性地提出了分组混合专家模型(MoGE)架构,有效解决了大规模分布式训练的负载均衡难题,提升了训练效率。同时,诺亚方舟实验室也承认:“盘古Pro MoE开源模型部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代码。我们严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。这不仅是开源社区的通行做法,也符合业界倡导的开源协作精神。我们始终坚持开放创新,尊重第三方知识产权,同时提倡包容、公平、开放、团结和可持续的开源理念。”