[LG]《On Training in Imagination》N Timor,

[LG]《On Training in Imagination》N Timor, R Shwartz-Ziv, M Goldblum, Y LeCun… [Weizmann Institute of Science & New York University & Columbia University] (2026)

在模型化强化学习中，想象 rollout 的回报误差难以归因。过去方法把动力学与奖励误差揉成一团，本质原因是缺少可分配预算的误差账本。

本文的核心洞见是：把奖励模型重新看作独立误差源。由此，用 Lipschitz 系数拆分回报差，并把样本成本、缩放律、噪声方差纳入同一优化，使预算选择可计算。

这项工作真正留下的遗产是训练想象的成本地图。它打开的新门是按误差衰减速度购买数据，但尚未跨过的门槛是全局 Lipschitz 界过松、随机环境仍未覆盖。

arxiv.org/abs/2605.06732 机器学习人工智能论文 AI创造营

群发资讯网

[LG]《On Training in Imagination》N Timor,

热门分类