当AI"边学边考"，训练速度能快两成吗？

这项由FuriosaAI与美国加州大学伯克利分校联合完成的研究，以预印本形式发表于2026年6月，论文编号为arXiv:2606.18967，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

**一个每天都在上演的低效故事**

假设你在管理一家餐厅，每天的工作流程是这样的：服务员先去后厨"背"一份菜单，然后回到前台一道一道地告诉顾客。背菜单这件事花掉了你70%的营业时间，而真正做菜、收钱的环节反而只占不到三成。这听起来荒唐，但在当今最先进的AI训练流程里，类似的低效每天都在发生。

训练像ChatGPT或DeepSeek这类会推理、会做数学的大型语言模型，有一个关键环节叫做"强化学习"（Reinforcement Learning，简称RL）。强化学习的大致逻辑是：让AI自己先"作答"一批题目，然后根据答案的好坏来调整AI的思维方式，让它越来越聪明。这个"自己作答"的环节，专业上叫"rollout"（推演生成），可以理解为AI的"答卷过程"。

问题就在这里：现在的AI越来越喜欢"长篇大论"，遇到一道数学题可能要写上千个字的推理过程。而AI写字的方式是一个字一个字地往外"蹦"，不能跳过，不能预知——这个逐字生成的过程，就像是餐厅服务员每次只能端一盘菜，端完再去取下一盘，整个效率极低。研究人员发现，这个答卷过程平均占据整个训练时间的近七成，成为名副其实的"瓶颈"。

更棘手的是，答卷时还存在"长尾效应"：大部分题目很快就答完了，但总有几道题AI要花特别长的时间才写完，整个批次的答题时间因此被这几道"拖尾"题目决定。就好像班级里30个同学交作业，29个人十分钟内交完了，但老师必须等最后那个磨蹭的同学——因为这些答案都是AI下一步"反思"和"进步"所需要的材料。

正是为了解决这个问题，两家机构的研究团队提出了一套名为"EfficientRollout"的系统方案，核心思想是在AI答卷的过程中引入一个聪明的"代笔助理"，帮助加速生成，同时保证答案的质量丝毫不打折扣。

**一、"代笔助理"的老技术，遇上了AI训练的新麻烦**

在AI领域，"投机解码"（Speculative Decoding，简称SD）其实已经是一个成熟的加速技术。它的原理听起来有些像考试中的"打草稿"：先让一个廉价的小模型（代笔助理）快速写出几个字的草稿，然后让大模型（真正的AI）一次性"批阅"这几个字，判断哪些字是正确的、哪些需要重写。由于批阅多个字的时间和批阅一个字差不多，整体速度就大幅提升了，而且最终结果和大模型自己一个字一个字写完全一致——因为批阅过程是严格的数学校验，保证了输出分布不变。

这个技术在"给固定AI模型提供服务"的场景里效果很好。但强化学习训练带来了两个独特的麻烦，让现有方案都不那么好用。

第一个麻烦是AI在"边学边考"。每完成一批答题，AI的"大脑"就更新一次，变得更聪明，但思维风格也随之改变。如果"代笔助理"是一个独立训练的小模型，它的思维方式很快就会跟不上AI主模型，导致草稿被频繁推翻，加速效果大打折扣。用一个比喻来说，就是你找了一个固定的代笔，但你自己的写作风格每天都在变，这位代笔今天写的草稿放到明天就已经"对不上号"了。

第二个麻烦是AI答卷时的"人数变化"。强化学习通常同时让AI回答一大批问题（比如128道），开始时128道题一起写，显卡满负荷运转；但随着简单题目陆续答完，还在答题的"学生"越来越少——最后可能只剩几道难题还在磨。在学生多的阶段，显卡的"算力"已经被用满了，这时引入代笔助理反而是添乱，因为批阅草稿占用了本就紧张的资源，速度不升反降。只有等学生少了、显卡有了闲置算力，代笔助理才真正有用武之地。

现有的解决方案主要分两类：一类是"历史重用派"，把AI上一轮答过的题目当草稿直接用——问题是上轮的答案和这轮大模型更新后的思路往往对不上，重用率极低，四五成就算不错；另一类是"专门训练派"，专门训练一个辅助小模型来扮演代笔——问题是这个小模型需要在正式训练开始前专门训练，还要在训练过程中持续调整，工程复杂度很高，而且常常因为训练数据不够"对口"而效果有限。

**二、量化压缩：从大模型里"变"出一个代笔助理**

面对这些挑战，EfficientRollout的核心思路是：与其费力找一个外部代笔助理，不如直接用AI本身"变"出一个。

具体做法叫做"权重量化"（Weight Quantization）。原本AI的"思维参数"是用高精度数字存储的（通常是16位浮点数），就好比每个数字都写了16位小数；而量化的意思是把这些数字压缩成4位整数，精度下降，但数字变小了，读取速度就快了很多。把量化后的AI当成代笔助理，它和原版AI"同根同源"，思维方式高度相似，而且每次大模型更新后，只需要重新量化一次就得到新的代笔助理，完全不需要单独训练。

研究团队发现，这种量化操作的"损失"其实非常小——经过量化的代笔助理写出的草稿，被原版AI接受的概率高达95%到98%。也就是说，100个字里有95到98个字，代笔写的和AI自己写的完全一致，只有极少数字需要重写。这个高接受率让代笔助理真正有效。

为什么量化后的代笔助理还能如此准确？研究团队在数据中发现了一个有趣的规律：随着强化学习训练的推进，AI变得越来越"自信"——它对于"什么是正确答案"越来越笃定，给出的概率分布越来越集中。这种"自信化"或"锐化"现象意味着AI在最可能的选项上赋予了更高的概率，而量化带来的微小误差不足以改变这个高概率选项，所以代笔助理依然能猜中。随着训练进行，AI越来越自信，代笔助理的命中率也越来越高，形成了正向循环。

研究团队还特别分析了AI答卷时"慢在哪里"。在只剩少数几道题还在答的尾部阶段，单次生成一个字的时间，约有93%花在了"加载模型参数"上（具体来说是FFN层、QKVO投影层和LM头等密集矩阵运算），只有约7%花在"回顾之前写了什么"（注意力计算）上。量化直接减少了需要加载的参数数据量，正好攻克了这93%的瓶颈所在，而不是去优化那7%的次要部分。

对比来看，另一种"稀疏注意力"的代笔方案主要减少的是那7%的注意力计算，对主要瓶颈几乎没有帮助；而"层跳过"的方案（让代笔跳过AI的某些层）虽然理论上可行，但固定的跳过模式在实际工程中与主流推理框架的兼容性很差，难以落地。

量化还有一个实用优势：研究团队选用了专门适配的W4A16 Marlin计算核心，这个核心在工业级vLLM推理框架里直接可用，不需要对系统做大刀阔斧的改动。每个训练步骤开始时，只需约1.3到2.6秒的量化时间就能得到新鲜的代笔助理，成本极低。

**三、聪明的开关：只在对的时机启动代笔模式**

有了高质量的代笔助理还不够，还需要知道什么时候用它。研究团队使用了一种叫"屋顶线模型"（Roofline Model）的经典计算机体系结构分析工具，来预测在当前时刻启动代笔模式是否真的有加速效果。

这个工具的核心逻辑很直观：AI的每一步计算，要么受限于"能算多快"（算力上限），要么受限于"能读多快"（内存带宽上限）。当同时在答题的"学生"很多时，显卡的算力几乎被用满，引入代笔助理虽然写了草稿，但批阅草稿同样需要算力，结果两件事挤在一起反而比只做一件事更慢；当答题的"学生"所剩无几时，显卡大量闲置，这时代笔助理写草稿花不了多少时间，批阅草稿可以充分利用闲置算力，整体速度才会提升。

研究团队对这个模型进行了"校准"——通过实际测量不同批次大小、不同序列长度下的实际运行时间，拟合出一套公式参数，让预测结果与实测数据高度吻合。这些参数对每个模型和硬件组合只需校准一次，之后可以在所有训练运行中复用。

基于这个预测模型，EfficientRollout设置了一个"开关条件"：只有当预测的加速比超过1.05倍时，才切换到代笔模式；一旦切换，就一直保持到这批答题结束——因为随着越来越多题目答完，批次只会越来越小，系统只会越来越有利于代笔模式，不需要再反复切换。

实验数据验证了这套开关的准确性。研究团队在不同的批次大小和序列长度下测量了实际加速效果，发现预测模型划出的"代笔有益"和"代笔有害"区域，与实测结果几乎完全吻合。对比始终开启代笔模式和使用智能开关的两种方案，智能开关版本仅仅关掉了开头6%到11%的代笔时间（那段算力紧张的阶段），就换来了明显更大的整体加速效果。这个看似矛盾的结果说明，少用一会儿代笔，比一直用代笔更快——关键在于避开了那段代笔反而拖后腿的早期阶段。

**四、自适应草稿长度：跟着训练进展动态调整**

代笔助理每次要写几个字的草稿，也是个有讲究的问题。草稿写得太少，频繁批阅的额外开销就相对较大；草稿写得太多，一旦某个字写错了，后面的字就全部作废，白费力气。最优的草稿长度取决于代笔助理的命中率——命中率高就可以多写几个字，命中率低就少写。

前面已经提到，随着强化学习训练推进，AI越来越"自信"，代笔助理的命中率也越来越高。因此，最优草稿长度也应该随着训练进展动态增加，而不是从头到尾固定一个数字。

EfficientRollout设计了一套简单的自适应策略：预先设定一个草稿长度的备选集合（在实验中使用的是5、7、9、11四个选项），训练开始时从最短的5个字开始。每个训练步骤结束后，系统会测量实际"块效率"（block efficiency，即每次代笔-批阅循环平均产出多少个通过验证的字符），然后根据一个简单规则决定是否升级：如果连续两步的效率都接近当前草稿长度的上限，就升级到更长的草稿；如果效率持续太低、代笔拖累了进度，就降级回更短的草稿。这个"等待两步才调整"的设计，是为了防止某一步骤的偶发波动引发不必要的调整。

以Qwen2.5-7B模型为例，训练开始时用5个字的草稿，随着训练推进命中率不断提高，系统依次升级到7、9，最终在后期稳定在11个字的草稿。对比固定用5个字草稿和固定用11个字草稿的方案，自适应策略的最终加速效果（19.6%的答卷时间缩减）比两者都更好：固定5字方案只缩减了13.5%，固定11字方案由于早期命中率不高、浪费太多反而只缩减了11.8%。这说明在训练早期用较短草稿、后期用较长草稿，是最优策略，而自适应控制恰好能自动找到这个节奏。

**五、真实战场上的测试成绩**

研究团队在8张A100-80GB显卡的单机环境上，使用三个主流开源模型进行了全面测试：Qwen2.5-7B、Qwen2.5-14B，以及Llama3.1-8B，分别在数学题强化学习任务上跑了100个训练步骤。为了保证公平，所有方案都运行在相同的工业级系统栈（veRL训练框架+vLLM推理后端）上。

测试结果如下：以"不用任何代笔、一字一字老老实实生成"的基线方案为比较基准，EfficientRollout在三个模型上分别实现了答卷时间缩减19.6%（Qwen2.5-7B）、16.8%（Qwen2.5-14B）、10.7%（Llama3.1-8B）；考虑到量化准备时间和其他训练环节，端到端的每步训练时间分别缩减了12.7%、10.8%和7.9%。

这些成绩在所有对比方案中是最好的。作为参考，"历史重用"方案（把上一轮答案当草稿）不仅没有加速，反而让答卷时间增加了3.7%到4.9%——因为它翻出历史答案、做匹配、做批阅的额外工作量，比它省下来的还多。"专门训练的辅助代笔"方案（EAGLE3风格的辅助模型）表现参差不齐：对Qwen2.5-14B有3.3%的小幅加速，对Llama3.1-8B却造成了25.6%的大幅减速，原因是这种代笔助理在高温度（创造性较高）、长推理的数学强化学习场景下命中率极低（54%到60%），用了比不用更慢。

为了搞清楚辅助代笔为何表现不佳，研究团队还做了额外分析。他们在DAPO-Math-17K数据集上测试了多个公开发布的EAGLE3代笔模型：Qwen3-8B的三个版本、Llama3.1-8B的两个版本等，发现这些模型的块效率普遍在1.2到2.4之间徘徊，而量化自代笔的块效率稳定在3.6到3.9。进一步分析发现，这些公开代笔模型通常是在通用聊天数据（ShareGPT等）上训练的，与强化学习数学推理任务的分布相差甚远。唯一表现较好的是专门在思维链数据上训练的Qwen3-8B版本，但即便如此，也和量化自代笔有相当大的差距。研究团队指出，要让辅助代笔真正有效，需要先收集目标模型在目标任务上生成的长推理数据，用这些数据专门训练代笔，再配合持续的在线适配——这是一套复杂的工程流程，大大增加了使用门槛。

与此形成对比的是，量化自代笔完全不需要这些准备工作，从训练第一步就能有效工作，且始终与主模型保持同步。

最后，在训练质量方面，研究团队验证了EfficientRollout输出的分布与不加速时完全一致——因为量化代笔只是提案，最终每个字都经过了完整精度大模型的严格验证，通不过验证的字会被重新采样，所以理论上和实践上都保证了训练效果不受影响。三个模型的训练奖励曲线和验证准确率曲线，与不加速的基线方案高度重合，证明了这一点。

**说到底，这套方案在做什么**

归根结底，EfficientRollout解决的是一个"让AI边训练边偷懒"的工程问题——用一个从自身压缩出来的"分身"来打草稿，通过数学校验保证分身打的草稿不影响最终质量，再通过智能调度让分身只在真正有用的时候出手，还能随着自身变得越来越聪明而逐渐让分身打更长的草稿。

这套方案目前已经在FuriosaAI与加州大学伯克利分校的工业级系统上验证，代码也已公开。对于任何需要用强化学习训练大型语言模型的团队来说，这套方案可以在不改变训练逻辑、不影响模型质量的前提下，让每一步训练快上一成甚至两成——换算成实际训练时间，这意味着原本需要一周的训练任务，可能只需要五到六天。

当然，这项工作也有几个明确的局限和未来方向。目前实验限于单机8卡、数据并行的配置，对于多机多卡的张量并行场景，通信开销的估算尚未纳入模型，需要进一步扩展。量化方式目前使用的是最简单的"四舍五入量化"（RTN），对某些模型可能初期效果不如使用激活感知量化（AWQ）好，虽然两者在训练几步后差距迅速收窄，但更精确的量化方式值得在工程成本允许的条件下探索。此外，当生成的文本极长（比如超过六万四千个字符）时，注意力计算的开销可能重新变得显著，届时结合稀疏注意力代笔可能带来额外收益。

---

Q&A

Q1：EfficientRollout里的"量化代笔助理"具体是怎么做出来的？精度损失大吗？

A：量化代笔助理是直接对主模型的权重参数做压缩得到的——把原本的16位浮点数压缩成4位整数，数据量大幅减少，读取速度因此加快。每次主模型更新后，只需1到3秒重新量化一次即可得到最新的代笔助理，不需要额外训练。精度损失方面，实验显示代笔写出的草稿被主模型接受的概率高达95%到98%，也就是说一百个字里只有两三个字需要主模型重写，损失非常小。随着强化学习训练推进、主模型越来越"自信"，这个接受率还会进一步提高。

Q2：EfficientRollout的智能开关为什么不一开始就打开代笔模式？

A：因为在答题人数多的阶段，显卡算力已经被用满，这时引入代笔助理需要额外的算力来写草稿和批阅草稿，反而会造成资源竞争，速度不升反降。实验数据也证实了这一点：强制从一开始就开启代笔模式，比智能判断后再开启的整体加速效果更差。开关的判断逻辑是通过"屋顶线模型"预测当前算力余量是否足够，只有预测加速比超过1.05时才切换，而一旦切换就保持开启，因为随着答题人数持续减少，情况只会越来越有利于代笔模式。

Q3：辅助代笔方案（EAGLE3类型）为什么在强化学习场景里效果差？

A：核心原因是"训练分布不匹配"。公开的EAGLE3代笔模型通常在通用聊天数据上训练，而强化学习中的数学推理任务需要高温度采样、长链条推理，两种分布相差很大，导致代笔命中率只有54%到60%。相比之下，量化自代笔直接来自主模型本身，命中率高达95%以上。要让辅助代笔真正有效，需要在目标任务数据上专门训练，还需要持续在线适配，工程门槛很高。部分使用推理数据训练的公开模型命中率略高，但和量化自代笔相比仍有显著差距。

群发资讯网

当AI"边学边考"，训练速度能快两成吗？

热门分类