整个行业屏息凝视华为大模型套壳疑抄袭科教频道|科教兴国|教育新闻阿波罗新闻网手机版

🏠新闻 > 科教 >

整个行业屏息凝视华为大模型套壳疑抄袭

华为最新开源的盘古（Pangu）AI大模型，正深陷一场技术与伦理的风暴中心。

一场关于其核心技术是否“套壳抄袭”阿里巴巴通义千问（Qwen）模型的指控，已迅速从开发者社区的窃窃私语演变为行业瞩目的公开事件。华为于2025年7月5日发布官方声明，坚决否认了增量训练或抄袭的说法，并强调其行为严格遵循开源许可。但这起争议的意义已远超个案本身，它如同一面棱镜，折射出当前全球人工智能领域在“开源”旗帜下的模糊边界、信任困境与秩序重构的迫切需求。

一场由“指纹”引发的“血统”追问争议的导火索是一份于7月4日发布在代码托管平台GitHub上的技术分析报告。该报告的作者——一位自称为哥斯达黎加大学的韩国学生——采用了一种名为“LLM-Fingerprint”（大语言模型指纹）的技术，对华为盘古Pro MoE模型（总参数720亿）与阿里巴巴通义千问Qwen-2.5 14B模型进行了深度比对。

该技术的核心逻辑是，通过提取和分析模型中每个Transformer层的注意力参数（QKVO）的标准差，为每个模型生成一个独特的“指纹”向量。报告指出，盘古Pro MoE模型与通义千问模型在这一“指纹”上的相似度达到了惊人的0.927（理论最大值为1.0，代表完全一致）。这一数值远超不同独立训练模型间应有的正常差异范围，因此报告作者断定，这强烈指向了“非独立开发”的可能性。

为指控增添“实证”的，是研究者在盘古开源的代码文件中，发现了明确指向阿里巴巴的版权声明——“Copyright 2024 The Qwen team, Alibaba Group”。在许多开发者看来，这无异于一个“忘记擦除的脚印”，似乎坐实了盘古模型与通义千问之间存在直接的代码继承关系。尽管这份引发轩然大波的GitHub报告在发布后不久即被删除，但其提出的技术疑点和代码证据已在行业内迅速发酵，将华为推上了舆论的风口浪尖。

华为的辩护：创新、参考与开源精神面对汹涌的舆论，华为负责盘古大模型研发的核心团队——诺亚方舟实验室，在事发次日（7月5日）午后迅速做出回应。这份声明的核心，可以概括为三点：独立创新的坚定立场、对开源实践的合规遵循，以及对社区共建的开放态度。

首先，华为方面明确切割了盘古模型与“基于其他厂商模型增量训练”的关联。声明强调，盘古Pro MoE是一个“基于昇腾（Ascend）硬件平台开发、训练的基础大模型”。华为特别指出了其关键创新——全球首个面向昇腾硬件设计的“分组混合专家模型（MoGE）”架构。据称，该架构有效解决了大规模分布式训练中的负载均衡难题，是其核心技术壁垒的体现，而非对他人的简单复刻。

其次，针对代码中出现的阿里版权声明，华为并未回避，而是将其定义为对业界开源实践的参考与尊重。盘古团队承认，“部分基础组件的代码实现参考了业界开源实践，涉及其他开源大模型的部分开源代码”。他们认为，严格遵循开源许可证的要求，在代码中清晰标注原始版权声明，“不仅是开源社区的通行做法，也符合业界倡导的开源协作精神”。这番解释试图将一个看似“抄袭”的证据，重塑为一次合规、透明的开源协作行为。

最后，华为重申了其对开放创新和知识产权的尊重，并欢迎开发者在官方社区就技术细节进行深入、专业的交流。这份回应措辞严谨，试图从技术原创性、行为合规性和开源理念三个层面，全面化解外界的质疑。

超越个案：AI开源的“模糊地带”与信任危机华为盘古与阿里通义千问的这场风波，绝非孤例。它深刻地揭示了在人工智能大模型时代，传统软件领域的“开源”概念正面临前所未有的挑战。近年来，从零一万物（01.AI）的Yi系列模型被指架构与Meta的Llama高度相似，到斯坦福大学团队的Llama3-V项目被证实“套壳”了中国初创公司面壁智能的MiniCPM模型，类似的争议已屡见不鲜。

这些事件共同指向了一个核心问题：在AI大模型领域，开源的边界究竟在哪里？

传统的软件开源，主要涉及代码的开放。其许可证（如Apache, MIT, GPL）对代码的复制、修改、分发和商业使用有相对明确的规定。然而，一个AI大模型的核心价值，不仅在于其实现代码，更在于经过海量数据和巨大算力“炼”出的模型权重（即参数）。这些权重构成了模型的“智能”本身。目前，行业对于模型权重的开源、借鉴乃至“化用”，缺乏统一、清晰的法律和道德准绳。

使用一个开源模型的架构进行重新训练、参考部分实现代码、还是直接使用或微调他人训练好的模型权重，这三者之间存在着巨大的灰色地带。加之训练一个世界级大模型的成本动辄数亿甚至数十亿美元，这使得“站在巨人的肩膀上”成为一种普遍的技术发展路径和商业诱惑。正如DeepSeek等优秀开源底座模型的风靡所显示的，完全从零开始的自研已成为少数巨头的特权。

此次争议中，尽管有技术专家指出，仅凭“模型指纹”的标准差相似度来判定“抄袭”可能并不完全科学，但它无疑触动了行业最敏感的神经——信任。在一个依赖协作与共享精神的开源社区，任何关于“血统”纯洁性的疑虑，都可能侵蚀其赖以生存的根基。

截至目前，事件的另一方，阿里巴巴通义千问团队尚未对此事发表公开回应。然而，整个行业都在屏息凝视。这起事件的最终走向，无论结果如何，都将成为一个标志性的案例。它迫使所有参与者——从科技巨头到初创公司，再到每一位开发者——重新思考和定义AI时代的开源规则。如何在鼓励创新、加速技术迭代的同时，有效保护知识产权，建立一个公平、透明、可持续的开源新秩序，已成为全球人工智能行业亟待解决的重要课题。

整个行业屏息凝视 华为大模型套壳疑抄袭

整个行业屏息凝视华为大模型套壳疑抄袭