首页 ›今日热点 ›科技财经

华为新架构砍了Transformer大年夜动脉！恣意模子推理能力原地飙升

收藏分享邀请

摘要

金磊发自凹非寺量子位 | "民众 ," 号 QbitAI是时光给Transformer的大年夜动脉动刀子了。因为即便它享有当下AI世界基石的职位，但自身标题也是异常明显：一旦遇到繁芜的数学题或者须要多步逻辑推理的时光，就开始不苟

金磊发自凹非寺
量子位 | "民众 ," 号 QbitAI

是时光给Transformer的大年夜动脉动刀子了。

因为即便它享有当下AI世界基石的职位，但自身标题也是异常明显：

一旦遇到繁芜的数学题或者须要多步逻辑推理的时光，就开始不苟言笑地语无伦次了……

该图片大概由AI生成

标题究竟出在了那里？

答案就藏在Transformer的焦点计心情制里——Attention。

传统Attention机制实质上像是一种配比较较：每个词只和另一个词直接发生关系，生成一个留意力权重。

这种架构虽然擅长捕捉长距离依靠，但在建模繁芜、多跳、多点之间的逻辑关系时却显得力不从心了。

例如它能轻松明白“A熟悉B”，但如果要它明白“张三颠末进程李四熟悉了王五”，即多跳、多点之间的繁芜、间接关系，它的脑回路就显得不敷深，推理能力的天花板刹时触顶。

如今，这个天花板，被华为诺亚方舟实验室捅破了！

因为就在迩来，团队祭出了一种全新架构，叫做Nexus，即高阶留意力机制（Higher-Order Attention Mechanism）。

它可以说是直接偷袭了Attention机制的核肉痛点，使用更高阶留意力，就能有效地建模多跳、多点之间的繁芜关联。

而且从实验效果来看，效果也是有点惊艳在身上的。

只要换上Nexus这个新架构，模子在数学和科学等繁芜推理任务上的能力，都能立马实现大年夜幅飙升，而且还是参数零增的那种。

妙哉，实在妙哉。

接下来，就让我们一同来深刻相识一下Nexus的精妙一刀。

高阶留意力机制砍出的精妙一刀

要明白高阶的意义，我们必需先回首传统自留意力机制的根本缺点。

标准的自留意力机制实质上是将输入序列X分别颠末进程三个线性变换WQ，WK，WV生成 Query（Q）、Key（K）、Value（V），再颠末进程 softmax盘算留意力权重：

但这里就出现了一个症结的标题：Q和K都是静态的、与高低文无关的线性投影。

也就是说，某个token的Query向量仅由它本身决定，无法感知其他token的存在；这导致留意力权重只能反响两两之间的直接关系。

精妙第一刀：Q和K的革新

华为诺亚方舟实验室的第一个刀法，就精妙地砍在了这里：Nexus让Q和K的生成进程本身也变成一个留意力操纵。

换句话说，token在盘算最终的Q和K之前，会先辈行一次“预推理”；这个进程，其实就是一个嵌套的自留意力机制。

Token起首颠末进程这个内部循环，从全局高低文中聚合信息，形成一个加倍精炼、更具高低文感知能力的表现，然后再用这个表现去盘算最终的Q和K。

这就好比，在你问我答（Q和K盘算Attention）之前，每个token都先在内部举行了深思熟虑，充分吸收了它在全部序列中的情况信息。

如许生成的Q和K，自然就解脱了线性投影的僵硬，具备了捕捉繁芜关系的动态性。

精妙第二刀：巧用递归框架

Nexus架构最精妙之处，还在于它的递归框架（Recursive Framework）。

这个内部留意力循环可以被递归地来嵌套。

如果我们将一层Attention视为一阶关系（A熟悉B），那么将Attention的输出作为下一层Attention的输入，就可以构建二阶关系（张三颠末进程李四熟悉王五），以致更高阶的关系。

在Nexus中，这种递归嵌套被巧妙地集成在一个单层布局中，形成了一个条理化的推理链。

论文进一步将上述进程递归化，界说第m阶留意力为：

其中，m=1就是标准留意力；m=2表现Q和K由一次内层留意力生成；m=3表现Q和K由二阶留意力生成，相称于“留意力的留意力的留意力”。

这种布局天然支持多跳推理链，就像人在解一道数学题时，先明白题干中的症结变量（第1层），再思索它们之间的公式关系（第2层），最后验证集团逻辑是否自洽（第3层）。

精妙第三刀：不增参数

繁芜架构往往意味着更高的盘算开销和更多的参数量，但Nexus颠末进程精良的计划，完备规避了这些标题——权重共享策略。

详细来说，无论是内层还是外层的留意力模块，都复用同一组投影权重WQ，WK，WV。

这意味着，尽管盘算路径更繁芜，但模子参数量和原始Transformer完备一致。

这种计划背后有一个症结假设：无论处于递归的哪一层，将token投影为Query或Key的语义变换方式是相似的。

团队颠末进程实验证明，这一假设是成立的。

在Pythia-70M的溶解实验中，使用权重共享的Nexus-QK-Shared版本，均匀精确率仍比基线高出近1个百分点，而参数量毫无增加。

这就让Nexus成为了一种极其高效的表达密度提拔器——用类似的参数，实现更强的推理能力。

只要换上Nexus，推理效果立竿见影

那么Nexus的效果到底如何？

论文在两个维度做了验证：从零训练的小模子，以及对已有大年夜模子的架构改革。

小模子全面领先

研究团队在 Pythia 系列（70M 到 1B）上重新训练 Nexus，并在六个标准推理数据集上评估：ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

效果异常一致：Nexus 在所有规模上都优于原始Transformer。

尤其在须要多步推理或科学知识的任务中提拔明显。例如：

在SciQ（科学问答）上，70M模子精确率从61.5%提拔至68.5%，提拔7个百分点；
在PiQA（物理知识推理）上，1B模子从62.5%提拔至63.6%。

这阐明Nexus特别擅长处置惩罚那些不能靠表面模式匹配办理的标题，是真的有在做推理。

大年夜模子改装即用

面临规模更大年夜的模子，Nexus还体现出了即插即用的能力。

团队将Qwen2.5的1.5B和7B版本的标准留意力层直接改换为Nexus布局，仅在SFT（监视微调）阶段举行训练，未改动预训练权重。

效果表明，在三个高难度数学推理基准上（MATH-500、AIME24、GPQA-Diamond），Nexus 均带来安定提拔：

Qwen2.5-1.5B在MATH-500上精确率从78.6% → 80.1%；
Qwen2.5-7B在AIME24上从 45.2% → 47.5%。

尤其值得留意的是AIME24的提拔，因为这类标题请求严格的多步逻辑推导，毛病一步就全盘皆输。Nexus 的改进阐明，它确实在内部构建了更连贯的推理链。

从这一层面来看，Nexus不但是一个新训练范式，还是一套架构升级套件。你不消从新训练一个千亿模子，只需在微调阶段改换留意力层，就能解锁更强的推理能力。

推理能力可内生于架构

虽然Nexus如今聚焦于说话模子，但其思想具有普适性。

高阶关系建模在视觉、图神经网络、多模态任务中同样症结；例如，在视频明白中，“A看到B打了C” 就是一个典范的三元关系，传统Attention难以直接捕捉。

华为诺亚团队表现，下一步将探索Nexus在视觉Transformer和多模态大年夜模子中的运用，并优化其盘算服从。

Transformer 的智商天花板，大概从来不在参数量，而在其留意力机制的表达能力。华为诺亚的 Nexus，用一种优雅而高效的方式，为这一焦点模块注入了高阶推理能力。

它不靠堆料，不靠提醒工程，而是从架构底层重构了模子的思索方式。

是以，Nexus也提醒了我们：偶然光，聪明的架构比规模的巨细更重要。

论文地址：
https://arxiv.org/abs/2512.03377

路过

雷人

握手

鲜花

鸡蛋

老糜

关注Ta

推广

火星云矿 | 预约S19Pro，享500抵1000！

上一篇：5万吨仓单一日注销！摩根大通：标志着铜价进入“波动性更强，更急看涨的中场阶段”

下一篇：4.5亿元“落子”三人行，陕西首富严建亚夫妻手握3家上市公司

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

老糜关注Ta

0 粉丝19 主题

该作者很懒，什么也没有填写

荣昌当局食堂主厨都炒麻了：连炒十三四个小时，均匀一人炒18

2025-05-03

2025年3月4日晚上，共有3名老虎落马，大快人心，这是人民的

2025-03-05

《难哄》vs《偷偷藏不住》，5个角色不同演员对比，伤害太大

2025-02-26

胆大包天！女子冒充亲友混进喜宴，偷窃礼金被抓包，遭群殴后