群发资讯网

DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek-V3.2很强很火爆,但随着讨论的深入,还是有bu

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek-V3.2很强很火爆,但随着讨论的深入,还是有bug被发现了。

并且是个老问题:浪费token。

△图源:x@Hangslin

不少网友都提到,DeepSeek-V3.2的长思考增强版Speciale,确确实实以开源之姿又给闭源TOP们上了压力,但问题也很明显:

在面对复杂任务时,消耗的token数偏多,甚至可能会出现“又长又错”的答案。

比如,同样解决一个问题,Gemini只用了2万个token,而Speciale需要花费7.7万个。

这是怎么一回事?

没有被纠正的“长度偏见”

有研究者指出,这其实是自DeepSeek-R1-Zero以来,DeepSeek系列模型一直存在的一个“bug”。

简单来说,问题出在了GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两个“隐藏偏见”。

长度偏见:错误答案越长,惩罚反而会越轻

GRPO计算奖励时,会把“答案长度”算进去 ,导致短的错误答案被罚得更重。

结果就是:模型会故意生成“又长又错”的答案,看起来像是在“认真推理”,其实是在“凑字数躲惩罚”。

难度偏见:太简单或太难的题被过度关注

GRPO会根据“同一批题的得分标准差”调整权重。比如一道题所有人都做对(标准差小),或所有人都做错(标准差也小),这道题会被当成 “重点” 反复训练;而中等难度、有人对有人错的题(标准差大),反而被忽略。但实际训练中,中等难度的题才是提升能力的关键。

这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式,修正了“难度偏见”(如下图红框所示)。

但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,“长度偏见”依然存在。

实际上,这个问题DeepSeek官方报告亦有提及。

技术报告中,DeepSeek研究人员坦承,token效率对于DeepSeek-V3.2而言,仍然是个挑战:通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身,也是特意放宽了RL的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到从百万token的输出成本来看,DeepSeek-V3.2价格仅为GPT-5的1/24,似乎也尚可接受。

另外,也有网友指出,DeepSeek的128K上下文已经很久没动了。这与GPU资源有限也不无关系。

你是否也已经用上DeepSeek-V3.2了?体验如何,欢迎在评论区与我们分享~

参考链接:[1]https://x.com/zzlccc/status/1995770284385992798[2]https://api-docs.deepseek.com/news/news251201

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态

评论列表

GGGGaGo
GGGGaGo 6
2025-12-05 09:39
AI的底核是人类的思维,设计者存在偏见,他就会存在偏见,而且随着开源,AI也会随着使用者增多而“降智”,就好比AI初期70,我们本想让他不断学习变成100,但随着大量错误信息的使用,他现在增长速度很慢甚至出现60…
遗闻轶
遗闻轶 4
2025-12-05 13:02
“乘坐高铁前往合肥南站推荐车次:G265(07:34烟台-12:47合肥南)或 G474(08:50烟台-14:04合肥南)耗时约5小时“,我让AI给我一个从烟台到合肥的乘车建议,这是它给我的答案,但是我查了一下这两个高铁班次根本不经过这两个城市。这是不是就是AI幻觉?
Sin.Ni
Sin.Ni 4
2025-12-04 06:01
还有优化空间说明未来效果可能更好,期待下一次的进步
冰冰冰冰淇淋
冰冰冰冰淇淋 2
2025-12-03 20:29
一个1亿米长的杆子要能通过高4米宽3米的门,问杆子的最大直径是多少?结果DeepSeek算了个2.4米。。
三川水
三川水 2
2025-12-05 05:34
垃圾的一批,用grok写好的,给改的全是错,都运行不了,运行一次3h.花费四块
苏雨_waKIRAin
苏雨_waKIRAin 2
2025-12-05 13:44
我触发过DeepSeek的思考无限循环,重复输出两句相同的话
二小姐的小白裙
二小姐的小白裙 2
2025-12-05 02:24
看看,有了AI程序员下岗了的论调还成立吗?AI仅仅是个大号的百度,是个工具而已,能够提高工作效率
alikrj
alikrj 2
2025-12-04 08:01
价格差了几十倍呢[得瑟]
你在烦恼什么
你在烦恼什么 2
2025-12-05 03:39
最近ds特别不好用。给了一道初一数学题,给出的答案简直就是胡说八道。最后问的豆包解决了。以前不这样,不知道最近咋了。
末路丶一枝花
末路丶一枝花 2
2025-12-04 06:36
现在ds确实非常强悍,我天天deepseek生成代码,巨强,生成代码完整性非常nice
四时明媚
四时明媚 2
2025-12-05 13:04
Ds的老问题,幻觉严重
大麦
大麦 1
2025-12-04 14:05
这不就是开源的意义吗
抖弊惠走练巨
抖弊惠走练巨 1
2025-12-04 01:15
本质原因是gpt不给蒸馏了,所以只火了一下子,后续无法发展了
沽心竹
沽心竹 1
2025-12-04 08:06
有问题不怕,会解决的。
饼不加葱
饼不加葱 1
2025-12-04 19:00
最近百度ai上的ds经常答非所问,难道是卡bug了?
wein
wein 1
2025-12-04 07:36
deepseek绝对是国运级产品。这个大家都心知肚明的。
^YUAN
^YUAN 1
2025-12-04 05:16
谁去找找美国ai的bug... 哦对了,人家没开源[doge]
黑猫警长 ?
黑猫警长 ? 1
2025-12-05 12:50
千问是最强的,ds缺乏竞争力了