这项由威斯康星大学麦迪逊分校、Scitix、康奈尔大学、杜克大学、加州大学戴维斯分校和南方科技大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.01622。感兴趣的读者可以通过该编号查询完整论文。

**研究背景:当AI写作需要一个"专家团队"**

现代大型语言模型的规模越来越惊人,动辄数百亿甚至上千亿个参数。为了在保持庞大知识储备的同时不让每次回答都耗费天量算力,工程师们想出了一个聪明的办法:给模型配备一个由许多"专家"组成的团队,每次处理文字时只激活其中少数几位专家,而不是让所有人同时上阵。这种架构在AI圈里叫做"混合专家模型"(Mixture-of-Experts,简称MoE)。

目前最先进的对话AI系统,比如Mixtral、DeepSeek-V3、Qwen2.5等,都采用了这种团队分工的方式。然而,这些模型有一个共同点:它们的"派单方式"都是由任务方主动发起的——也就是说,每个需要处理的文字单元自己决定去找哪位专家帮忙。这种方式在逐字生成文本的传统AI中没什么问题,但放到另一类正在崛起的AI架构中,却暴露出了明显的缺陷。

这类架构叫做"扩散语言模型"(Diffusion Language Models,简称DLM)。与传统AI一个字一个字往外蹦不同,扩散语言模型更像是在一张白纸上同时处理整句话——先把所有位置都打上问号,然后一轮一轮地把问号换成真实的文字,直到整个句子完整呈现。这种方式可以并行处理,理论上速度更快,近年来吸引了大量研究者的关注。

研究团队发现,把为逐字生成设计的派单方式直接搬到扩散语言模型上,就像用出租车调度系统来管理一个同时处理整栋楼快递的仓库——水土不服,问题重重。于是他们提出了一套更适合扩散语言模型的分工方案,并从实验中得出了一系列令人印象深刻的结论。

一、两种派单方式的根本区别:谁来决定找谁

要理解这项研究的核心,需要先弄清楚两种截然不同的"派单哲学"。

在传统方式下,规则是"任务找专家":每一个需要处理的文字单元,自行查看所有专家的简历,然后选择自己最信任的那几位。这种方式叫做"令牌选择"(Token-Choice,简称TC)路由。听起来很民主,但问题很快就浮现出来了——如果同时有一百个文字单元都觉得专家A最厉害,专家A就会被淹没在工作中,而其他专家则在发呆等活干。这种情况叫做"负载不均衡",是TC路由的顽疾。

为了解决这个问题,工程师们通常要给模型加上一个额外的"公平性惩罚"——如果某位专家承接了太多活,就扣分。但这个惩罚会与模型学习语言的主要目标产生冲突,相当于在学生专心备考的时候还要分心遵守额外的纪律规定,效果打折扣。而且即便如此,负载不均衡的问题也无法从根本上消除,因为每个文字单元依然在独立做决定。

另一种方式则翻转了规则,叫做"专家选择"(Expert-Choice,简称EC)路由:每位专家主动选取自己认为最需要帮助的若干个文字单元。这样一来,每位专家的工作量就是固定的,整个团队的负载天然均衡,根本不需要额外的惩罚机制。

这种方式听起来简单,却有一个关键的前提条件:专家在做选择的时候,必须能看到所有候选的文字单元。在传统逐字生成的AI中,这是做不到的——下一个词还没生成出来,专家怎么可能预先知道它的需求呢?然而在扩散语言模型中,每一轮去噪都是在完整的序列上操作的,所有文字单元同时摆在那里,专家完全可以纵观全局再做选择。这正是研究团队的核心洞察:扩散语言模型的架构特性,天然与专家选择路由高度契合。

二、速度对比:同样的目的地,EC走得快一倍

研究团队搭建了一系列完全相同的模型架构,唯一的区别是路由方式不同,然后让它们在同样的数据上从零开始训练,并记录训练损失随时间的变化。

结果相当直观:采用专家选择路由的模型,在10.6小时内就把训练损失降到了3.75;而采用传统令牌选择路由的模型,不管是"无上限版"还是"限容量版",都需要将近21小时才能达到同样的损失水平。换句话说,专家选择路由的模型学得足足快了两倍。

背后的原因可以用一个工厂的比喻来理解。假设一条生产线上有8台机器,每台机器的加工速度是固定的。在令牌选择模式下,订单由客户随机选择机器,结果是某台机器堆满了订单,其他机器却在空转等待。为了不让生产线停摆,所有机器都必须等最忙的那台完成当前批次后才能进入下一轮,这就是所谓的"掉队者效应"。

在专家选择模式下,调度员统一分配订单,每台机器的任务量完全相同,所有机器同步完成,没有任何等待。研究团队测量了每台GPU(图形处理器,承担模型计算工作的硬件)的内存占用量,发现在令牌选择模式下,8台GPU的内存使用量差异高达标准差3.6GB,最忙的那台甚至用掉了70.3GB,远超其他机器的58到64GB;而在专家选择模式下,所有GPU的内存占用完全相同,标准差为零。

这种均衡不只是让系统更整洁,更是实实在在转化成了速度优势。测量显示,专家选择路由能达到每块GPU每秒52.1万亿次浮点运算的吞吐量,而各种令牌选择变体只能达到24.9到35.4,相差1.5到2.1倍。

三、不只是快,还能"因材施教":按去噪阶段动态分配计算资源

发现专家选择路由更快只是这项研究的第一步。研究团队随即意识到,EC路由还能做一件TC路由根本无法做到的事情:根据当前处于哪个去噪阶段,灵活调整每位专家处理多少个文字单元。

扩散语言模型的工作原理,就像是在一张满是涂改液的文稿上一层层地擦出原文。第一轮时,几乎所有位置都是涂改液(高遮掩率),模型几乎没有上下文可以参考;最后几轮时,绝大多数文字已经清晰可见,只剩下一两个词还在模糊之中(低遮掩率)。

直觉上,人们可能会认为最难的阶段是开头——一无所知的时候最需要帮助。但实验给出了截然不同的答案。研究团队设计了七种不同的"容量调度方案",分别在不同的去噪阶段多投入或少投入计算资源,同时保证所有方案的总计算量完全相同(这样对比才公平)。

在以困惑度(Perplexity,衡量语言模型预测准确性的指标,数值越低越好)为标准的评测中,"线性反转方案"表现最佳,得分36.5。这个方案的规则很简单:遮掩率越低,投入的计算资源越多。换句话说,把最多的专家力量集中在即将完成的最后几步。而"线性方案"——遮掩率越高投入越多——得分只有37.5,还不如不做任何调整的静态基线(37.1)。

这个发现说明,在接近完稿的阶段投入更多计算资源,比在一片空白的初始阶段投入更有价值。

研究团队还在更大规模的模型上验证了这一结论。他们在名为Nemotron-CC的大型数据集上预训练了两个拥有80亿参数(其中10亿参数被激活)的模型,训练量达到2000亿个词次。采用动态线性反转调度的模型,在验证困惑度上稳定低于静态基线(例如在2000亿词次训练后分别为19.18对19.19),在MMLU(一个衡量综合知识水平的标准测试)和ARC-Challenge(一个科学推理测试)上的准确率也持续领先,且每一个检查点都是如此,并非偶然波动。

四、为什么"最后几步"最值得多投入:学习效率的数量级差异

既然实验已经给出了答案,研究团队还想搞清楚背后的原因。他们设计了一套衡量"学习效率"的方法,把遮掩率分成四个区间(0到25%、25%到50%、50%到75%、75%到100%),分别追踪每个区间内模型的损失随训练步数的下降速度,并用一个叫做"收敛率"的指标来量化这种速度。

所谓收敛率,可以理解为"模型在这个难度等级的问题上,每向前走一步能进步多少"。这个指标在对数空间下计算,使得不同难度区间之间的比较具有可比性。

测量结果令人吃惊:处于最低遮掩率区间(0到25%)的文字单元,其收敛率高达62.2(×10??),而处于最高遮掩率区间(75%到100%)的文字单元,收敛率只有9.8(×10??),相差超过六倍,而且随着训练推进,这个差距还在持续扩大。到了训练后期,最低遮掩率区间的收敛率(2.5×10??)依然是最高遮掩率区间(0.3×10??)的约八倍,某些阶段差距甚至接近二十倍。

这就像一个班级里,有些同学每做一道练习题就能进步一大步,有些同学做十道题才有同等进步。如果老师的精力有限,当然应该把更多时间花在"学习效率高的同学"身上,才能让整体成绩提升最快。

低遮掩率阶段之所以学习效率高,研究团队给出了一个合理解释:当绝大多数文字已经显现,只剩下一两个位置还在迷雾中时,模型掌握了丰富的上下文,每一次对这些残余位置的预测尝试都包含了密集的信息量。而在高遮掩率阶段,上下文极度匮乏,模型的大多数猜测都几乎是在黑暗中摸索,从每次尝试中学到的东西自然有限。

动态EC的比值分析进一步印证了这一点:在低遮掩率区间,动态EC模型的收敛率比静态EC高出约3%,而在高遮掩率区间则低约1%到5%。这正是一种有价值的以退换进:牺牲在低效区间的少量进步,换取在高效区间的更多收益,净效果是正的。

五、旧模型也能焕新生:只换一个小部件,就能提速又提质

研究团队还面对了一个非常实际的问题:已经训练好的传统模型,能不能从专家选择路由中受益,而不需要从头重新训练?

他们选取了一个叫做LLaDA-MoE的已训练模型,只替换其中的路由器(相当于把"谁找谁"的规则改成"谁选谁"),所有专家的权重、嵌入参数和其他结构都保持不变,然后在四个不同任务上进行微调:代码生成(HumanEval和HumanEval-Plus)、数学推理(GSM8K)和医学知识问答(MedQA)。

结果显示,仅仅换了路由器,EC版本的模型在所有四个任务上的训练收敛速度都明显快于原始TC版本,而最终达到的准确率相当或更高。动态EC(采用线性反转调度)在四项任务的平均准确率上进一步领先:54.9%对静态EC的53.6%,对原始TC的52.6%。

除了准确率,推理速度的提升同样显著。由于专家选择路由消除了负载不均衡,模型在实际运行时也不再出现部分计算单元空等的情况。测量显示,EC和动态EC版本的每轮评测解码时间比TC版本快了1.3到1.5倍。以HumanEval任务为例,TC版本每轮评测需要1369秒,而EC版本只需要1008秒,动态EC需要1056秒。

这意味着,已经部署在产品中的扩散语言模型,可以通过一次相对低成本的手术——仅仅更换路由逻辑——获得训练更快、推理更快、准确率更高的三重收益,而不必承担从头训练数百亿参数模型所需的巨额计算费用。

六、细节与边界:不完美之处同样值得关注

这项研究也并非没有值得商榷的地方,研究团队在论文中坦诚地指出了若干局限。

首先,专家选择路由有一个潜在的令人担忧之处:如果某个文字单元没有被任何专家选中,会不会导致信息丢失?测量显示,在静态EC模式下,中间层(第2到14层)有不足1.1%的词次未被任何路由专家选中,整体平均未覆盖率约为2.7%;动态EC由于在高遮掩率阶段容量极低,平均未覆盖率升至8.0%。不过,模型中还有两位"共享专家"会无条件处理所有词次,因此被路由专家跳过的词次并不会完全丢失处理机会。此外,从概率角度看,一个词次在所有16层都被跳过的概率极其微小,在静态EC下约为10???,在动态EC下约为10???,实际上几乎不会发生。

其次,本研究设计的所有容量调度方案都是人工预设的(线性、余弦、高斯及其反转变体),而不是由模型自行学习出来的最优方案。研究团队也承认,最优方案可能随模型规模、训练数据和任务类型的不同而变化。一个自然的后续方向是训练一个轻量级的容量预测器,让模型根据当前状态动态决定应该给每位专家分配多少工作量,而不是依赖预先设定的规则。这种方向在视觉扩散模型领域(如DiffMoE)已有先例,但在语言扩散模型中尚属空白。

还有一个有趣的细节:余弦反转调度虽然也倾向于在低遮掩率阶段投入更多资源,但它的分配策略比线性反转更为激进——在遮掩率接近零时投入极多,在遮掩率接近一时投入极少。然而其最终困惑度(37.2)反而略差于线性反转(36.5)。这说明完全"饿死"高遮掩率阶段并不明智;线性反转之所以表现最佳,或许正在于它在两个极端之间保持了更好的平衡。

归根结底,这项研究做了一件看起来简单但影响深远的事情:它证明了,当AI模型的工作方式发生根本性变化时(从逐字生成变为同步去噪),其内部的资源分配策略也应该随之重新设计,而不是简单地照搬旧有范式。

专家选择路由让扩散语言模型的训练速度翻倍,推理速度提升三到五成,而动态容量调度则进一步挖掘了扩散过程本身的结构规律——不同阶段的学习价值天差地别,应当区别对待。更重要的是,这套改进不需要改动模型的大部分组件,已有的模型只需换掉一个路由器就能受益。

对于普通人而言,这意味着未来基于扩散语言模型的AI写作、编程、问答工具,有望在更低的计算成本下提供更快的响应速度和更高的准确率。而对于研究者而言,这项工作打开了一个新的视角:迭代生成过程中的计算分配,不应被视为固定的架构常数,而应被视为可以主动设计的策略变量。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.01622查阅完整论文。

Q&A

Q1:专家选择路由和令牌选择路由在扩散语言模型中有什么本质区别?

A:令牌选择路由中,每个文字单元自行挑选专家,容易造成某些专家被挤爆、其他专家闲置,所有计算单元必须等最忙的那个完成才能推进下一步。专家选择路由反过来让每位专家主动选取固定数量的文字单元,负载天然均衡。扩散语言模型每轮都能看到完整序列,这正好满足了专家做全局选择的前提条件,因此两者天然适配。

Q2:为什么把更多计算资源放在低遮掩率阶段比放在高遮掩率阶段效果更好?

A:研究发现,在低遮掩率阶段(大部分文字已显现,只剩少量位置待填)时,模型的学习效率比高遮掩率阶段高出数倍甚至数十倍。原因在于此时上下文丰富,每一次预测尝试都包含大量有用信号;而在高遮掩率阶段,上下文极少,每次尝试能学到的东西很有限。按学习效率高低分配资源,整体性能自然更好。

Q3:已经训练好的扩散语言模型如何转换为专家选择路由?

A:转换方式非常简洁,只需替换模型内部负责分配任务的路由器组件,将"文字找专家"的逻辑改成"专家选文字",专家权重、语言嵌入和其他所有参数完全保留不动。替换后在目标任务上进行短暂微调,即可获得更快的训练收敛速度、更快的推理速度,以及在多数任务上更高的准确率。