2025年6月30日,华为高调宣布开源其盘古年夜 模型核心组件(Pangu Pro MoE),包含 70亿参数稠密模型和720亿参数的肴杂专家模型,传播鼓吹 这是构建昇腾生态的症结 办法。 然而仅隔四天,一项发布于GitHub的研讨 激发 业界存
2025年6月30日,华为高调宣布开源其盘古年夜 模型核心组件(Pangu Pro MoE),包含 70亿参数稠密模型和720亿参数的肴杂专家模型,传播鼓吹 这是构建昇腾生态的症结 办法。 然而仅隔四天,一项发布于GitHub的研讨 激发 业界存眷 :用户@HonestAGI通过“LLM指纹”技能剖析 指出,盘古Pro MoE与阿里通义千问Qwen-2.5 14B模型的留意力参数分布雷同 性高达0.927(1.0为完备 一致),远超业内0.7以下的正常差别规模 。 ![]() 华为诺亚方舟实验室声明截图 华为诺亚方舟实验室7月5日发布最新声明,表现盘古 Pro MoE 开源模型是基于昇腾硬件平台开辟、训练的底子年夜 模型,并非基于其他厂商模型增量训练而来。 盘古团队表现,“盘古 Pro MoE 开源模型部分底子组件的代码实现参考了业界开源实践,涉及其他开源年夜 模型的部分开源代码。我们严酷遵照开源允许证的要求,在开源代码文件中清晰标注开源代码的版权声明。这不光是开源社区的通行做法,也相符 业界倡导的开源协作精力。” 然而,就在7月6日凌晨,一位自称是盘古年夜 模型团队的员工自爆,确实存在套壳、续训、洗水印的征象。 ![]() 爆料文章截图 该员工表现,因为 团队初期算力非常有限,虽做出了很多积极和挣扎,但没有预期效果,内部的质疑声和向导的压力也越来越年夜 。后来小模型实验室多次套壳竞品,向导层被指默许造假举动调换短期结果。 自爆文中称:“经过内部的剖析 ,他们现实上是利用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了也许 135B的参数。”并表现,“听同事说他们为了洗失落 千问的水印,采取了不少办法,以致包含 故意 训了脏数据。”“他们选择了套壳Deepseekv3续训。他们通过冻住Deepseek加载的参数,举行训练。” 最后 他表现出于对技能伦理的对峙,决定去职并曝光内幕。 停止现在,华为并未对此自爆内容发表声明。 来源:新浪科技、亚方舟实验室、云头条 |
2025-05-03
2025-03-05
2025-03-05
2025-02-26
2025-04-06