群发资讯网

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错

2025-12-03 17:42:10 量子位未分类

鱼羊发自凹非寺量子位 | 公众号 QbitAI DeepSeek-V3.2很强很火爆，但随着讨论的深入，还是有bu

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

DeepSeek-V3.2很强很火爆，但随着讨论的深入，还是有bug被发现了。

并且是个老问题：浪费token。

△图源：x@Hangslin

不少网友都提到，DeepSeek-V3.2的长思考增强版Speciale，确确实实以开源之姿又给闭源TOP们上了压力，但问题也很明显：

在面对复杂任务时，消耗的token数偏多，甚至可能会出现“又长又错”的答案。

比如，同样解决一个问题，Gemini只用了2万个token，而Speciale需要花费7.7万个。

这是怎么一回事？

没有被纠正的“长度偏见”

有研究者指出，这其实是自DeepSeek-R1-Zero以来，DeepSeek系列模型一直存在的一个“bug”。

简单来说，问题出在了GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为，GRPO存在两个“隐藏偏见”。

长度偏见：错误答案越长，惩罚反而会越轻

GRPO计算奖励时，会把“答案长度”算进去，导致短的错误答案被罚得更重。

结果就是：模型会故意生成“又长又错”的答案，看起来像是在“认真推理”，其实是在“凑字数躲惩罚”。

难度偏见：太简单或太难的题被过度关注

GRPO会根据“同一批题的得分标准差”调整权重。比如一道题所有人都做对（标准差小），或所有人都做错（标准差也小），这道题会被当成 “重点” 反复训练；而中等难度、有人对有人错的题（标准差大），反而被忽略。但实际训练中，中等难度的题才是提升能力的关键。

这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式，修正了“难度偏见”（如下图红框所示）。

但仍然保留了有偏的长度规范项（如下图蓝框所示）。也就是说，“长度偏见”依然存在。

实际上，这个问题DeepSeek官方报告亦有提及。

技术报告中，DeepSeek研究人员坦承，token效率对于DeepSeek-V3.2而言，仍然是个挑战：通常情况下，本次上新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身，也是特意放宽了RL的长度限制，允许模型生成极长思维链，使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到从百万token的输出成本来看，DeepSeek-V3.2价格仅为GPT-5的1/24，似乎也尚可接受。

另外，也有网友指出，DeepSeek的128K上下文已经很久没动了。这与GPU资源有限也不无关系。

你是否也已经用上DeepSeek-V3.2了？体验如何，欢迎在评论区与我们分享~

参考链接：[1]https://x.com/zzlccc/status/1995770284385992798[2]https://api-docs.deepseek.com/news/news251201

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态

阅读：464 点赞：4

评论列表

GGGGaGo 6

2025-12-05 09:39

AI的底核是人类的思维，设计者存在偏见，他就会存在偏见，而且随着开源，AI也会随着使用者增多而“降智”，就好比AI初期70，我们本想让他不断学习变成100，但随着大量错误信息的使用，他现在增长速度很慢甚至出现60…

遗闻轶 4

2025-12-05 13:02

“乘坐高铁前往合肥南站推荐车次:G265(07:34烟台-12:47合肥南)或 G474(08:50烟台-14:04合肥南)耗时约5小时“，我让AI给我一个从烟台到合肥的乘车建议，这是它给我的答案，但是我查了一下这两个高铁班次根本不经过这两个城市。这是不是就是AI幻觉？

Sin.Ni 4

2025-12-04 06:01

还有优化空间说明未来效果可能更好，期待下一次的进步

冰冰冰冰淇淋 2

2025-12-03 20:29

一个1亿米长的杆子要能通过高4米宽3米的门，问杆子的最大直径是多少？结果DeepSeek算了个2.4米。。

三川水 2

2025-12-05 05:34

垃圾的一批，用grok写好的，给改的全是错，都运行不了，运行一次3h.花费四块

苏雨_waKIRAin 2

2025-12-05 13:44

我触发过DeepSeek的思考无限循环，重复输出两句相同的话

二小姐的小白裙 2

2025-12-05 02:24

看看，有了AI程序员下岗了的论调还成立吗？AI仅仅是个大号的百度，是个工具而已，能够提高工作效率

alikrj 2

2025-12-04 08:01

价格差了几十倍呢[得瑟]

你在烦恼什么 2

2025-12-05 03:39

最近ds特别不好用。给了一道初一数学题，给出的答案简直就是胡说八道。最后问的豆包解决了。以前不这样，不知道最近咋了。

末路丶一枝花 2

2025-12-04 06:36

现在ds确实非常强悍，我天天deepseek生成代码，巨强，生成代码完整性非常nice

四时明媚 2

2025-12-05 13:04

Ds的老问题，幻觉严重

大麦 1

2025-12-04 14:05

这不就是开源的意义吗

抖弊惠走练巨 1

2025-12-04 01:15

本质原因是gpt不给蒸馏了，所以只火了一下子，后续无法发展了

沽心竹 1

2025-12-04 08:06

有问题不怕，会解决的。

饼不加葱 1

2025-12-04 19:00

最近百度ai上的ds经常答非所问，难道是卡bug了？

wein 1

2025-12-04 07:36

deepseek绝对是国运级产品。这个大家都心知肚明的。

^YUAN 1

2025-12-04 05:16

谁去找找美国ai的bug... 哦对了，人家没开源[doge]

黑猫警长 ? 1

2025-12-05 12:50

千问是最强的，ds缺乏竞争力了

猜你喜欢

DeepSeek在DeepSeek-V3.2的技术报告中说，与领先的闭源模

DeepSeek在DeepSeek-V3.2的技术报告中说，与领先的闭源模

2025-12-02 映梦说汽车啊

标签： deepseek 英伟达手机行业

两周复刻DeepSeekOCR两人小团队还原DeepSeekOCR两人小团队，仅

两周复刻DeepSeekOCR两人小团队还原DeepSeekOCR两人小团队，仅

2025-11-07 量子位看科技

标签： deepseek nvidia ted iOS

deepseek揭露了冰山一角，openai离职人员进一步加强了理论基础，

deepseek揭露了冰山一角，openai离职人员进一步加强了理论基础，

2025-11-09 怒喵李楠

标签： deepseek openai

罗福莉加入小米，梁文峰损失一员大将，难道是deepseek工资不高吗？严格意义上

罗福莉加入小米，梁文峰损失一员大将，难道是deepseek工资不高吗？严格意义上

2025-11-14 苏兰姐看车

标签： deepseek 小米科技互联网公司

DeepSeek预测中国未来可能成为世界顶级的10家企业:1.华为。2.字节跳

DeepSeek预测中国未来可能成为世界顶级的10家企业:1.华为。2.字节跳

2025-11-26 自在景空

标签：华为 deepseek

Deepseek被豆包反超了，是什么原因呢？👀看看网友和用户们是怎么

Deepseek被豆包反超了，是什么原因呢？👀看看网友和用户们是怎么

2025-11-24 流浪的浪漫诗人

标签： deepseek 豆包腾讯