
这项由FuriosaAI与美国加州大学伯克利分校联合完成的研究,以预印本形式发表于2026年6月,论文编号为arXiv:2606.18967,感兴趣的读者可通过该编号在arXiv平台查阅完整原文。
**一个每天都在上演的低效故事**
假设你在管理一家餐厅,每天的工作流程是这样的:服务员先去后厨"背"一份菜单,然后回到前台一道一道地告诉顾客。背菜单这件事花掉了你70%的营业时间,而真正做菜、收钱的环节反而只占不到三成。这听起来荒唐,但在当今最先进的AI训练流程里,类似的低效每天都在发生。
训练像ChatGPT或DeepSeek这类会推理、会做数学的大型语言模型,有一个关键环节叫做"强化学习"(Reinforcement Learning,简称RL)。强化学习的大致逻辑是:让AI自己先"作答"一批题目,然后根据答案的好坏来调整AI的思维方式,让它越来越聪明。这个"自己作答"的环节,专业上叫"rollout"(推演生成),可以理解为AI的"答卷过程"。
问题就在这里:现在的AI越来越喜欢"长篇大论",遇到一道数学题可能要写上千个字的推理过程。而AI写字的方式是一个字一个字地往外"蹦",不能跳过,不能预知——这个逐字生成的过程,就像是餐厅服务员每次只能端一盘菜,端完再去取下一盘,整个效率极低。研究人员发现,这个答卷过程平均占据整个训练时间的近七成,成为名副其实的"瓶颈"。
更棘手的是,答卷时还存在"长尾效应":大部分题目很快就答完了,但总有几道题AI要花特别长的时间才写完,整个批次的答题时间因此被这几道"拖尾"题目决定。就好像班级里30个同学交作业,29个人十分钟内交完了,但老师必须等最后那个磨蹭的同学——因为这些答案都是AI下一步"反思"和"进步"所需要的材料。
正是为了解决这个问题,两家机构的研究团队提出了一套名为"EfficientRollout"的系统方案,核心思想是在AI答卷的过程中引入一个聪明的"代笔助理",帮助加速生成,同时保证答案的质量丝毫不打折扣。
**一、"代笔助理"的老技术,遇上了AI训练的新麻烦**
在AI领域,"投机解码"(Speculative Decoding,简称SD)其实已经是一个成熟的加速技术。它的原理听起来有些像考试中的"打草稿":先让一个廉价的小模型(代笔助理)快速写出几个字的草稿,然后让大模型(真正的AI)一次性"批阅"这几个字,判断哪些字是正确的、哪些需要重写。由于批阅多个字的时间和批阅一个字差不多,整体速度就大幅提升了,而且最终结果和大模型自己一个字一个字写完全一致——因为批阅过程是严格的数学校验,保证了输出分布不变。
这个技术在"给固定AI模型提供服务"的场景里效果很好。但强化学习训练带来了两个独特的麻烦,让现有方案都不那么好用。
第一个麻烦是AI在"边学边考"。每完成一批答题,AI的"大脑"就更新一次,变得更聪明,但思维风格也随之改变。如果"代笔助理"是一个独立训练的小模型,它的思维方式很快就会跟不上AI主模型,导致草稿被频繁推翻,加速效果大打折扣。用一个比喻来说,就是你找了一个固定的代笔,但你自己的写作风格每天都在变,这位代笔今天写的草稿放到明天就已经"对不上号"了。
第二个麻烦是AI答卷时的"人数变化"。强化学习通常同时让AI回答一大批问题(比如128道),开始时128道题一起写,显卡满负荷运转;但随着简单题目陆续答完,还在答题的"学生"越来越少——最后可能只剩几道难题还在磨。在学生多的阶段,显卡的"算力"已经被用满了,这时引入代笔助理反而是添乱,因为批阅草稿占用了本就紧张的资源,速度不升反降。只有等学生少了、显卡有了闲置算力,代笔助理才真正有用武之地。
现有的解决方案主要分两类:一类是"历史重用派",把AI上一轮答过的题目当草稿直接用——问题是上轮的答案和这轮大模型更新后的思路往往对不上,重用率极低,四五成就算不错;另一类是"专门训练派",专门训练一个辅助小模型来扮演代笔——问题是这个小模型需要在正式训练开始前专门训练,还要在训练过程中持续调整,工程复杂度很高,而且常常因为训练数据不够"对口"而效果有限。
**二、量化压缩:从大模型里"变"出一个代笔助理**
面对这些挑战,EfficientRollout的核心思路是:与其费力找一个外部代笔助理,不如直接用AI本身"变"出一个。
具体做法叫做"权重量化"(Weight Quantization)。原本AI的"思维参数"是用高精度数字存储的(通常是16位浮点数),就好比每个数字都写了16位小数;而量化的意思是把这些数字压缩成4位整数,精度下降,但数字变小了,读取速度就快了很多。把量化后的AI当成代笔助理,它和原版AI"同根同源",思维方式高度相似,而且每次大模型更新后,只需要重新量化一次就得到新的代笔助理,完全不需要单独训练。
研究团队发现,这种量化操作的"损失"其实非常小——经过量化的代笔助理写出的草稿,被原版AI接受的概率高达95%到98%。也就是说,100个字里有95到98个字,代笔写的和AI自己写的完全一致,只有极少数字需要重写。这个高接受率让代笔助理真正有效。
为什么量化后的代笔助理还能如此准确?研究团队在数据中发现了一个有趣的规律:随着强化学习训练的推进,AI变得越来越"自信"——它对于"什么是正确答案"越来越笃定,给出的概率分布越来越集中。这种"自信化"或"锐化"现象意味着AI在最可能的选项上赋予了更高的概率,而量化带来的微小误差不足以改变这个高概率选项,所以代笔助理依然能猜中。随着训练进行,AI越来越自信,代笔助理的命中率也越来越高,形成了正向循环。
研究团队还特别分析了AI答卷时"慢在哪里"。在只剩少数几道题还在答的尾部阶段,单次生成一个字的时间,约有93%花在了"加载模型参数"上(具体来说是FFN层、QKVO投影层和LM头等密集矩阵运算),只有约7%花在"回顾之前写了什么"(注意力计算)上。量化直接减少了需要加载的参数数据量,正好攻克了这93%的瓶颈所在,而不是去优化那7%的次要部分。
对比来看,另一种"稀疏注意力"的代笔方案主要减少的是那7%的注意力计算,对主要瓶颈几乎没有帮助;而"层跳过"的方案(让代笔跳过AI的某些层)虽然理论上可行,但固定的跳过模式在实际工程中与主流推理框架的兼容性很差,难以落地。
量化还有一个实用优势:研究团队选用了专门适配的W4A16 Marlin计算核心,这个核心在工业级vLLM推理框架里直接可用,不需要对系统做大刀阔斧的改动。每个训练步骤开始时,只需约1.3到2.6秒的量化时间就能得到新鲜的代笔助理,成本极低。
**三、聪明的开关:只在对的时机启动代笔模式**
有了高质量的代笔助理还不够,还需要知道什么时候用它。研究团队使用了一种叫"屋顶线模型"(Roofline Model)的经典计算机体系结构分析工具,来预测在当前时刻启动代笔模式是否真的有加速效果。
这个工具的核心逻辑很直观:AI的每一步计算,要么受限于"能算多快"(算力上限),要么受限于"能读多快"(内存带宽上限)。当同时在答题的"学生"很多时,显卡的算力几乎被用满,引入代笔助理虽然写了草稿,但批阅草稿同样需要算力,结果两件事挤在一起反而比只做一件事更慢;当答题的"学生"所剩无几时,显卡大量闲置,这时代笔助理写草稿花不了多少时间,批阅草稿可以充分利用闲置算力,整体速度才会提升。
研究团队对这个模型进行了"校准"——通过实际测量不同批次大小、不同序列长度下的实际运行时间,拟合出一套公式参数,让预测结果与实测数据高度吻合。这些参数对每个模型和硬件组合只需校准一次,之后可以在所有训练运行中复用。
基于这个预测模型,EfficientRollout设置了一个"开关条件":只有当预测的加速比超过1.05倍时,才切换到代笔模式;一旦切换,就一直保持到这批答题结束——因为随着越来越多题目答完,批次只会越来越小,系统只会越来越有利于代笔模式,不需要再反复切换。
实验数据验证了这套开关的准确性。研究团队在不同的批次大小和序列长度下测量了实际加速效果,发现预测模型划出的"代笔有益"和"代笔有害"区域,与实测结果几乎完全吻合。对比始终开启代笔模式和使用智能开关的两种方案,智能开关版本仅仅关掉了开头6%到11%的代笔时间(那段算力紧张的阶段),就换来了明显更大的整体加速效果。这个看似矛盾的结果说明,少用一会儿代笔,比一直用代笔更快——关键在于避开了那段代笔反而拖后腿的早期阶段。
**四、自适应草稿长度:跟着训练进展动态调整**
代笔助理每次要写几个字的草稿,也是个有讲究的问题。草稿写得太少,频繁批阅的额外开销就相对较大;草稿写得太多,一旦某个字写错了,后面的字就全部作废,白费力气。最优的草稿长度取决于代笔助理的命中率——命中率高就可以多写几个字,命中率低就少写。
前面已经提到,随着强化学习训练推进,AI越来越"自信",代笔助理的命中率也越来越高。因此,最优草稿长度也应该随着训练进展动态增加,而不是从头到尾固定一个数字。
EfficientRollout设计了一套简单的自适应策略:预先设定一个草稿长度的备选集合(在实验中使用的是5、7、9、11四个选项),训练开始时从最短的5个字开始。每个训练步骤结束后,系统会测量实际"块效率"(block efficiency,即每次代笔-批阅循环平均产出多少个通过验证的字符),然后根据一个简单规则决定是否升级:如果连续两步的效率都接近当前草稿长度的上限,就升级到更长的草稿;如果效率持续太低、代笔拖累了进度,就降级回更短的草稿。这个"等待两步才调整"的设计,是为了防止某一步骤的偶发波动引发不必要的调整。
以Qwen2.5-7B模型为例,训练开始时用5个字的草稿,随着训练推进命中率不断提高,系统依次升级到7、9,最终在后期稳定在11个字的草稿。对比固定用5个字草稿和固定用11个字草稿的方案,自适应策略的最终加速效果(19.6%的答卷时间缩减)比两者都更好:固定5字方案只缩减了13.5%,固定11字方案由于早期命中率不高、浪费太多反而只缩减了11.8%。这说明在训练早期用较短草稿、后期用较长草稿,是最优策略,而自适应控制恰好能自动找到这个节奏。
**五、真实战场上的测试成绩**
研究团队在8张A100-80GB显卡的单机环境上,使用三个主流开源模型进行了全面测试:Qwen2.5-7B、Qwen2.5-14B,以及Llama3.1-8B,分别在数学题强化学习任务上跑了100个训练步骤。为了保证公平,所有方案都运行在相同的工业级系统栈(veRL训练框架+vLLM推理后端)上。
测试结果如下:以"不用任何代笔、一字一字老老实实生成"的基线方案为比较基准,EfficientRollout在三个模型上分别实现了答卷时间缩减19.6%(Qwen2.5-7B)、16.8%(Qwen2.5-14B)、10.7%(Llama3.1-8B);考虑到量化准备时间和其他训练环节,端到端的每步训练时间分别缩减了12.7%、10.8%和7.9%。
这些成绩在所有对比方案中是最好的。作为参考,"历史重用"方案(把上一轮答案当草稿)不仅没有加速,反而让答卷时间增加了3.7%到4.9%——因为它翻出历史答案、做匹配、做批阅的额外工作量,比它省下来的还多。"专门训练的辅助代笔"方案(EAGLE3风格的辅助模型)表现参差不齐:对Qwen2.5-14B有3.3%的小幅加速,对Llama3.1-8B却造成了25.6%的大幅减速,原因是这种代笔助理在高温度(创造性较高)、长推理的数学强化学习场景下命中率极低(54%到60%),用了比不用更慢。
为了搞清楚辅助代笔为何表现不佳,研究团队还做了额外分析。他们在DAPO-Math-17K数据集上测试了多个公开发布的EAGLE3代笔模型:Qwen3-8B的三个版本、Llama3.1-8B的两个版本等,发现这些模型的块效率普遍在1.2到2.4之间徘徊,而量化自代笔的块效率稳定在3.6到3.9。进一步分析发现,这些公开代笔模型通常是在通用聊天数据(ShareGPT等)上训练的,与强化学习数学推理任务的分布相差甚远。唯一表现较好的是专门在思维链数据上训练的Qwen3-8B版本,但即便如此,也和量化自代笔有相当大的差距。研究团队指出,要让辅助代笔真正有效,需要先收集目标模型在目标任务上生成的长推理数据,用这些数据专门训练代笔,再配合持续的在线适配——这是一套复杂的工程流程,大大增加了使用门槛。
与此形成对比的是,量化自代笔完全不需要这些准备工作,从训练第一步就能有效工作,且始终与主模型保持同步。
最后,在训练质量方面,研究团队验证了EfficientRollout输出的分布与不加速时完全一致——因为量化代笔只是提案,最终每个字都经过了完整精度大模型的严格验证,通不过验证的字会被重新采样,所以理论上和实践上都保证了训练效果不受影响。三个模型的训练奖励曲线和验证准确率曲线,与不加速的基线方案高度重合,证明了这一点。
**说到底,这套方案在做什么**
归根结底,EfficientRollout解决的是一个"让AI边训练边偷懒"的工程问题——用一个从自身压缩出来的"分身"来打草稿,通过数学校验保证分身打的草稿不影响最终质量,再通过智能调度让分身只在真正有用的时候出手,还能随着自身变得越来越聪明而逐渐让分身打更长的草稿。
这套方案目前已经在FuriosaAI与加州大学伯克利分校的工业级系统上验证,代码也已公开。对于任何需要用强化学习训练大型语言模型的团队来说,这套方案可以在不改变训练逻辑、不影响模型质量的前提下,让每一步训练快上一成甚至两成——换算成实际训练时间,这意味着原本需要一周的训练任务,可能只需要五到六天。
当然,这项工作也有几个明确的局限和未来方向。目前实验限于单机8卡、数据并行的配置,对于多机多卡的张量并行场景,通信开销的估算尚未纳入模型,需要进一步扩展。量化方式目前使用的是最简单的"四舍五入量化"(RTN),对某些模型可能初期效果不如使用激活感知量化(AWQ)好,虽然两者在训练几步后差距迅速收窄,但更精确的量化方式值得在工程成本允许的条件下探索。此外,当生成的文本极长(比如超过六万四千个字符)时,注意力计算的开销可能重新变得显著,届时结合稀疏注意力代笔可能带来额外收益。
---
Q&A
Q1:EfficientRollout里的"量化代笔助理"具体是怎么做出来的?精度损失大吗?
A:量化代笔助理是直接对主模型的权重参数做压缩得到的——把原本的16位浮点数压缩成4位整数,数据量大幅减少,读取速度因此加快。每次主模型更新后,只需1到3秒重新量化一次即可得到最新的代笔助理,不需要额外训练。精度损失方面,实验显示代笔写出的草稿被主模型接受的概率高达95%到98%,也就是说一百个字里只有两三个字需要主模型重写,损失非常小。随着强化学习训练推进、主模型越来越"自信",这个接受率还会进一步提高。
Q2:EfficientRollout的智能开关为什么不一开始就打开代笔模式?
A:因为在答题人数多的阶段,显卡算力已经被用满,这时引入代笔助理需要额外的算力来写草稿和批阅草稿,反而会造成资源竞争,速度不升反降。实验数据也证实了这一点:强制从一开始就开启代笔模式,比智能判断后再开启的整体加速效果更差。开关的判断逻辑是通过"屋顶线模型"预测当前算力余量是否足够,只有预测加速比超过1.05时才切换,而一旦切换就保持开启,因为随着答题人数持续减少,情况只会越来越有利于代笔模式。
Q3:辅助代笔方案(EAGLE3类型)为什么在强化学习场景里效果差?
A:核心原因是"训练分布不匹配"。公开的EAGLE3代笔模型通常在通用聊天数据上训练,而强化学习中的数学推理任务需要高温度采样、长链条推理,两种分布相差很大,导致代笔命中率只有54%到60%。相比之下,量化自代笔直接来自主模型本身,命中率高达95%以上。要让辅助代笔真正有效,需要在目标任务数据上专门训练,还需要持续在线适配,工程门槛很高。部分使用推理数据训练的公开模型命中率略高,但和量化自代笔相比仍有显著差距。