金磊 发自 凹非寺量子位 | "民众 ," 号 QbitAI是时光 给Transformer的大年夜 动脉动刀子了。因为即便它享有当下AI世界基石的职位,但自身标题也是异常 明显 :一旦遇到繁芜 的数学题或者须要多步逻辑推理的时光 ,就开始不苟
是时光 给Transformer的大年夜 动脉动刀子了。 因为即便它享有当下AI世界基石的职位,但自身标题也是异常 明显 : 一旦遇到繁芜 的数学题或者须要多步逻辑推理的时光 ,就开始不苟言笑地语无伦次 了…… 该图片大概由AI生成 标题究竟出在了那里? 答案就藏在Transformer的焦点计心情 制里——Attention。 传统Attention机制实质 上像是一种配比较 较:每个词只和另一个词直接发生关系,生成 一个留意力权重。 这种架构虽然擅长 捕捉长距离依靠,但在建模繁芜 、多跳、多点之间的逻辑关系时却显得力不从心了。 例如它能轻松明白“A熟悉B”,但如果要它明白“张三颠末进程 李四熟悉了王五”,即多跳、多点之间的繁芜 、间接关系,它的脑回路就显得不敷深,推理能力的天花板刹时触顶。 如今,这个天花板,被华为诺亚方舟实验室捅破了! 因为就在迩来,团队祭出了一种全新架构,叫做Nexus,即高阶留意力机制(Higher-Order Attention Mechanism)。 它可以说是直接偷袭了Attention机制的核肉痛 点,使用更高阶留意力,就能有效地建模多跳、多点之间的繁芜 关联。 而且从实验效果来看,效果也是有点惊艳在身上的。 只要换上Nexus这个新架构,模子在数学和科学等繁芜 推理任务上的能力,都能立马实现大年夜 幅飙升,而且 还是参数零增的那种。 妙哉,实在 妙哉。 接下来,就让我们一同来深刻 相识一下Nexus的精妙一刀。 高阶留意力机制砍出的精妙一刀要明白高阶的意义,我们必需 先回首传统自留意力机制的根本缺点 。 标准的自留意力机制实质 上是将输入序列X分别 颠末进程 三个线性变换WQ,WK,WV生成 Query(Q)、Key(K)、Value(V),再颠末进程 softmax盘算留意力权重: 但这里就出现了一个症结 的标题:Q和K都是静态的、与高低 文无关的线性投影。 也就是说,某个token的Query向量仅由它本身决定,无法感知其他token的存在;这导致留意力权重只能反响 两两之间的直接关系。 精妙第一刀:Q和K的革新 华为诺亚方舟实验室的第一个刀法,就精妙地砍在了这里:Nexus让Q和K的生成 进程 本身也变成一个留意力操纵。 换句话说,token在盘算最终的Q和K之前,会先辈行一次“预推理”;这个进程 ,其实就是一个嵌套的自留意力机制。 Token起首颠末进程 这个内部循环,从全局高低 文中聚合信息,形成一个加倍 精炼、更具高低 文感知能力的表现,然后再用这个表现去盘算最终的Q和K。 这就好比,在你问我答(Q和K盘算Attention)之前,每个token都先在内部举行了深思熟虑 ,充分吸收了它在全部 序列中的情况信息。 如许生成 的Q和K,自然就解脱 了线性投影的僵硬,具备了捕捉繁芜 关系的动态性。 精妙第二刀:巧用递归框架 Nexus架构最精妙之处,还在于它的递归框架(Recursive Framework)。 这个内部留意力循环可以被递归地来嵌套。 如果我们将一层Attention视为一阶关系(A熟悉B),那么将Attention的输出作为下一层Attention的输入,就可以构建二阶关系(张三颠末进程 李四熟悉王五),以致更高阶的关系。 在Nexus中,这种递归嵌套被巧妙地集成在一个单层布局中,形成了一个条理化的推理链。 论文进一步将上述进程 递归化,界说第m阶留意力为: 其中,m=1就是标准留意力;m=2表现Q和K由一次内层留意力生成 ;m=3表现Q和K由二阶留意力生成 ,相称于“留意力的留意力的留意力”。 这种布局天然支持多跳推理链,就像人在解一道数学题时,先明白题干中的症结 变量(第1层),再思索它们之间的公式关系(第2层),最后 验证集团 逻辑是否自洽(第3层)。 精妙第三刀:不增参数 繁芜 架构往往意味着更高的盘算开销和更多的参数量,但Nexus颠末进程 精良的计划,完备 规避了这些标题——权重共享策略。 详细来说,无论是内层还是外层的留意力模块,都复用同一组投影权重WQ,WK,WV。 这意味着,尽管盘算路径更繁芜 ,但模子参数量和原始Transformer完备 一致。 这种计划背后有一个症结 假设:无论处于递归的哪一层,将token投影为Query或Key的语义变换方式是相似的。 团队颠末进程 实验证明,这一假设是成立的。 在Pythia-70M的溶解实验中,使用权重共享的Nexus-QK-Shared版本,均匀精确率仍比基线高出 近1个百分点,而参数量毫无增加。 这就让Nexus成为了一种极其高效的表达密度提拔器——用类似的参数,实现更强的推理能力。 只要换上Nexus,推理效果立竿见影那么Nexus的效果到底如何? 论文在两个维度做了验证:从零训练的小模子,以及对已有大年夜 模子的架构改革 。 小模子全面领先 研究团队在 Pythia 系列(70M 到 1B)上重新训练 Nexus,并在六个标准推理数据集上评估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。 效果异常 一致:Nexus 在所有规模 上都优于原始Transformer。 尤其在须要多步推理或科学知识的任务中提拔明显 。例如:
这阐明Nexus特别擅长 处置惩罚那些不能靠表面 模式匹配办理的标题,是真的有在做推理。 大年夜 模子改装即用 面临规模 更大年夜 的模子,Nexus还体现出了即插即用的能力。 团队将Qwen2.5的1.5B和7B版本的标准留意力层直接改换 为Nexus布局,仅在SFT(监视微调)阶段举行训练,未改动预训练权重。 效果表明,在三个高难度数学推理基准上(MATH-500、AIME24、GPQA-Diamond),Nexus 均带来安定 提拔:
尤其值得留意的是AIME24的提拔,因为这类标题请求 严格的多步逻辑推导,毛病 一步就全盘皆输。Nexus 的改进阐明,它确实在内部构建了更连贯的推理链。 从这一层面来看,Nexus不但是一个新训练范式,还是一套架构升级套件。你不消从新 训练一个千亿模子,只需在微调阶段改换 留意力层,就能解锁更强的推理能力。 推理能力可内生于架构虽然Nexus如今聚焦于说话 模子,但其思想具有普适性。 高阶关系建模在视觉、图神经网络、多模态任务中同样症结 ;例如,在视频明白中,“A看到B打了C” 就是一个典范的三元关系,传统Attention难以直接捕捉。 华为诺亚团队表现,下一步将探索Nexus在视觉Transformer和多模态大年夜 模子中的运用 ,并优化其盘算服从。 Transformer 的智商天花板,大概从来不在参数量,而在其留意力机制的表达能力。华为诺亚的 Nexus,用一种优雅而高效的方式,为这一焦点模块注入了高阶推理能力。 它不靠堆料,不靠提醒 工程,而是从架构底层重构了模子的思索方式。 是以 ,Nexus也提醒了我们:偶然光 ,聪明的架构比规模 的巨细更重要。 论文地址: |
2025-05-03
2025-03-05
2025-02-26
2025-03-05
2025-02-26