华为新架构砍了Transformer大年夜 动脉!恣意模子推理能力原地飙升

摘要

金磊 发自 凹非寺量子位 | "民众 ," 号 QbitAI是时光 给Transformer的大年夜 动脉动刀子了。因为即便它享有当下AI世界基石的职位,但自身标题也是异常 明显 :一旦遇到繁芜 的数学题或者须要多步逻辑推理的时光 ,就开始不苟

金磊 发自 凹非寺

量子位 | "民众 ," 号 QbitAI

是时光 给Transformer的大年夜 动脉动刀子了。

因为即便它享有当下AI世界基石的职位,但自身标题也是异常 明显 :

一旦遇到繁芜 的数学题或者须要多步逻辑推理的时光 ,就开始不苟言笑地语无伦次 了……

 该图片大概由AI生成

标题究竟出在了那里?

答案就藏在Transformer的焦点计心情 制里——Attention

传统Attention机制实质 上像是一种配比较 较:每个词只和另一个词直接发生关系,生成 一个留意力权重。

这种架构虽然擅长 捕捉长距离依靠,但在建模繁芜 、多跳、多点之间的逻辑关系时却显得力不从心了。

例如它能轻松明白“A熟悉B”,但如果要它明白“张三颠末进程 李四熟悉了王五”,即多跳、多点之间的繁芜 、间接关系,它的脑回路就显得不敷深,推理能力的天花板刹时触顶。

如今,这个天花板,被华为诺亚方舟实验室捅破了!

因为就在迩来,团队祭出了一种全新架构,叫做Nexus,即高阶留意力机制(Higher-Order Attention Mechanism)。

它可以说是直接偷袭了Attention机制的核肉痛 点,使用更高阶留意力,就能有效地建模多跳、多点之间的繁芜 关联。

而且从实验效果来看,效果也是有点惊艳在身上的。

只要换上Nexus这个新架构,模子在数学和科学等繁芜 推理任务上的能力,都能立马实现大年夜 幅飙升,而且 还是参数零增的那种。

妙哉,实在 妙哉。

接下来,就让我们一同来深刻 相识一下Nexus的精妙一刀。

高阶留意力机制砍出的精妙一刀

要明白高阶的意义,我们必需 先回首传统自留意力机制的根本缺点 。

标准的自留意力机制实质 上是将输入序列X分别 颠末进程 三个线性变换WQ,WK,WV生成 Query(Q)、Key(K)、Value(V),再颠末进程 softmax盘算留意力权重:

但这里就出现了一个症结 的标题:Q和K都是静态的、与高低 文无关的线性投影。

也就是说,某个token的Query向量仅由它本身决定,无法感知其他token的存在;这导致留意力权重只能反响 两两之间的直接关系。

精妙第一刀:Q和K的革新

华为诺亚方舟实验室的第一个刀法,就精妙地砍在了这里:Nexus让Q和K的生成 进程 本身也变成一个留意力操纵。

换句话说,token在盘算最终的Q和K之前,会先辈行一次“预推理”;这个进程 ,其实就是一个嵌套的自留意力机制

Token起首颠末进程 这个内部循环,从全局高低 文中聚合信息,形成一个加倍 精炼、更具高低 文感知能力的表现,然后再用这个表现去盘算最终的Q和K。

这就好比,在你问我答(Q和K盘算Attention)之前,每个token都先在内部举行了深思熟虑 ,充分吸收了它在全部 序列中的情况信息。

如许生成 的Q和K,自然就解脱 了线性投影的僵硬,具备了捕捉繁芜 关系的动态性。

精妙第二刀:巧用递归框架

Nexus架构最精妙之处,还在于它的递归框架(Recursive Framework)。

这个内部留意力循环可以被递归地来嵌套。

如果我们将一层Attention视为一阶关系(A熟悉B),那么将Attention的输出作为下一层Attention的输入,就可以构建二阶关系(张三颠末进程 李四熟悉王五),以致更高阶的关系。

在Nexus中,这种递归嵌套被巧妙地集成在一个单层布局中,形成了一个条理化的推理链。

论文进一步将上述进程 递归化,界说第m阶留意力为:

其中,m=1就是标准留意力;m=2表现Q和K由一次内层留意力生成 ;m=3表现Q和K由二阶留意力生成 ,相称于“留意力的留意力的留意力”。

这种布局天然支持多跳推理链,就像人在解一道数学题时,先明白题干中的症结 变量(第1层),再思索它们之间的公式关系(第2层),最后 验证集团 逻辑是否自洽(第3层)。

精妙第三刀:不增参数

繁芜 架构往往意味着更高的盘算开销和更多的参数量,但Nexus颠末进程 精良的计划,完备 规避了这些标题——权重共享策略

详细来说,无论是内层还是外层的留意力模块,都复用同一组投影权重WQ,WK,WV。

这意味着,尽管盘算路径更繁芜 ,但模子参数量和原始Transformer完备 一致。

这种计划背后有一个症结 假设:无论处于递归的哪一层,将token投影为Query或Key的语义变换方式是相似的。

团队颠末进程 实验证明,这一假设是成立的。

在Pythia-70M的溶解实验中,使用权重共享的Nexus-QK-Shared版本,均匀精确率仍比基线高出 近1个百分点,而参数量毫无增加。

这就让Nexus成为了一种极其高效的表达密度提拔器——用类似的参数,实现更强的推理能力。

只要换上Nexus,推理效果立竿见影

那么Nexus的效果到底如何?

论文在两个维度做了验证:从零训练的小模子,以及对已有大年夜 模子的架构改革 。

小模子全面领先

研究团队在 Pythia 系列(70M 到 1B)上重新训练 Nexus,并在六个标准推理数据集上评估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

效果异常 一致:Nexus 在所有规模 上都优于原始Transformer。

尤其在须要多步推理或科学知识的任务中提拔明显 。例如:

  • 在SciQ(科学问答)上,70M模子精确率从61.5%提拔至68.5%,提拔7个百分点;

  • 在PiQA(物理知识推理)上,1B模子从62.5%提拔至63.6%。

这阐明Nexus特别擅长 处置惩罚那些不能靠表面 模式匹配办理的标题,是真的有在做推理。

大年夜 模子改装即用

面临规模 更大年夜 的模子,Nexus还体现出了即插即用的能力。

团队将Qwen2.5的1.5B和7B版本的标准留意力层直接改换 为Nexus布局,仅在SFT(监视微调)阶段举行训练,未改动预训练权重。

效果表明,在三个高难度数学推理基准上(MATH-500、AIME24、GPQA-Diamond),Nexus 均带来安定 提拔:

  • Qwen2.5-1.5B在MATH-500上精确率从78.6% → 80.1%;

  • Qwen2.5-7B在AIME24上从 45.2% → 47.5%。

尤其值得留意的是AIME24的提拔,因为这类标题请求 严格的多步逻辑推导,毛病 一步就全盘皆输。Nexus 的改进阐明,它确实在内部构建了更连贯的推理链。

从这一层面来看,Nexus不但是一个新训练范式,还是一套架构升级套件。你不消从新 训练一个千亿模子,只需在微调阶段改换 留意力层,就能解锁更强的推理能力。

推理能力可内生于架构

虽然Nexus如今聚焦于说话 模子,但其思想具有普适性。

高阶关系建模在视觉、图神经网络、多模态任务中同样症结 ;例如,在视频明白中,“A看到B打了C” 就是一个典范的三元关系,传统Attention难以直接捕捉。

华为诺亚团队表现,下一步将探索Nexus在视觉Transformer和多模态大年夜 模子中的运用 ,并优化其盘算服从。

Transformer 的智商天花板,大概从来不在参数量,而在其留意力机制的表达能力。华为诺亚的 Nexus,用一种优雅而高效的方式,为这一焦点模块注入了高阶推理能力。

它不靠堆料,不靠提醒 工程,而是从架构底层重构了模子的思索方式。

是以 ,Nexus也提醒了我们:偶然光 ,聪明的架构比规模 的巨细更重要。

论文地址:
https://arxiv.org/abs/2512.03377

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

推广
火星云矿 | 预约S19Pro,享500抵1000!
本文暂无评论,快来抢沙发!

有招是一个优质的生活妙招创作平台,在这里,你可以任意分享你的妙招经验,日常生活、技能学习、成长励志、恋爱婚姻……我们相信,每个人都有独特的生活妙招,有着无穷的创造力。
  • 官方手机版

  • 微信公众号

  • 商务合作