群发资讯网

ChatGPT回复总是谈论“哥布林”,AI“军备竞赛”陷入困境?

从去年11月开始,ChatGPT用户便发现一些异常。当他们与GPT聊天时,人工智能总是喋喋不休地谈论“哥布林”(gobl

从去年11月开始,ChatGPT用户便发现一些异常。当他们与GPT聊天时,人工智能总是喋喋不休地谈论“哥布林”(goblins)。为什么会这样?OpenAI随后展开调查,试图搞清楚原因。

在西方民俗传说中,哥布林是一种虚构生物,它们拥有暗绿色或黄褐色皮肤、红眼睛,体型矮小,相貌丑陋,性格贪婪卑劣,行事狡猾。

为什么在OpenAI的回复中,突然冒出如此多的哥布林?就连OpenAI也承认这一现象并非个例。OpenAI解释称,“哥布林”问题是2025年11月GPT-5.1发布后才发现的,当用户选择“Nerdy”语言风格时,出现的频率更高。

对于“Nerdy”风格,OpenAI是这样提示的:“你是一个毫不掩饰的极客、是顽皮且充满智慧的AI导师,你服务于人类,你热情地推广真理、知识、哲学、科学方法和批判性思维,你必须用顽皮语言来消解虚伪。世界是复杂而奇怪的,必须承认、分析并享受这种奇怪,在避开自命不凡的陷阱时探讨沉重主题。”

“军备竞赛”陷入困境

最开始时,OpenAI认为“哥布林”现象无须过度担忧。随着新版本的推出,OpenAI开始严肃看待此问题。

对大多数用户来说,在回复中频频出现“哥布林”只是AI的一个怪癖,并无危害。但为了用户体验,OpenAI开始整治“哥布林”乱象,禁止大模型在对话中使用“哥布林”这个词。

技术专家认为,“哥布林”泛滥实际上显示系统训练基础出现了裂缝,意味着AI“军备竞赛”已经陷入困境。

美国东北大学计算机教授Christoph Riedl说:“行业如同一个高压锅,各大公司面临新模型发布压力,它们用于测试的资源和能力受到限制,流程变得漫长复杂,于是才出现所谓的‘哥布林’现象。”

为什么会出现如此多的“哥布林”?Christoph Riedl认为,主要是ChatGPT的训练模式存在缺陷。据教授猜测,在后期训练阶段(也就是微调阶段),人类会对回复进行反馈。鉴于回复的准确度、语气等原因,用户会偏爱某个回复。

Riedl说:“反馈如同信号,会强化某些回复,它相当于在告诉大模型:‘朋友,如果你生成这样的答案,会得到表扬和奖励;如果答案不是这样的,奖励就会少一些。’”

在不断的强化下,ChatGPT的回复会更加偏向“nerdy”风格,新版ChatGPT追求“趣味性”,避免“自命不凡”,不能在自以为是的前提下讨论沉重主题。最终,ChatGPT会以狭隘的方式对回复进行优化,甚至不惜偏离本意。

根据OpenAI的数据,在去年12月至今年3月期间,带有“nerdy”风格的回复大幅增加,攀升3881.4%。

从本质上讲,ChatGPT和其他大型语言模型一样,都是利用输入的海量数据预测下一个词。当大模型从海量文本中学习,预测能力就会增强,从而提高理解的准确性。

尽管如此,随机元素依然存在,因为有许多问题并没有标准答案。

另外,在强化学习过程中,AI会根据开发者的“奖励”做出决策。正如OpenAI所说:“在不知情的情况下,我们对生物隐喻给予了特别高的奖励。从那以后,哥布林就蔓延开了。”

“我会稳稳接住你”

哥布林现象是一个很好的例子,证明“奖励”会以不可预料的方式塑造模型行为。这一事件还说明,对于大型语言模型如何运作以及如何得出最终回应,其创造者自身并未完全了解。

许多美国用户在使用模型时,经常听到“砍一刀”,本来这是中国网民对拼多多营销口号的调侃,但当外国人听到时,却觉得莫名其妙。

Pangram CEO Max Spero认为,当模型频繁使用某个短语,会让人觉得生硬做作,这就是所谓的“模式坍缩”。

在ChatGPT回复中,经常会出现“I will catch you steadily”(我会稳稳接住你)这句话,结果遭到网民群嘲。

为什么ChatGPT如此迷恋“I will catch you steadily”这句话?可能是翻译出现了问题。在中国人的理解中,这句话可能是“我罩着你”的意思。当中国人阅读翻译文章时,也会有生硬感,比如句子格外冗长,句式不规范。

受到“奖励机制”的影响,AI越来越会“阿谀奉承”,这点在豆包上也很明显。简言之,“哥布林”和“砍一刀”现象是当前所有AI模型的通病。

Christoph Riedl认为,当AI模型看到某种怪癖得到奖励,该行为就会在后期训练中得到强化。正因如此,在新模型的回复中,我们会看到许多奇异生物,比如小魔怪、食人魔、巨魔、浣熊和鸽子。

Riedl指出,AI模型的词汇怪癖令人担忧。起初,企业会动用整个数据中心训练模型,但训练完成后,企业却对模型的走向失去控制力。当不良行为嵌入到训练过程中,企业需要几个月才能发现。

OpenAI最终只能提供一个快速修复方案,让回复避开“nerdy”人设。但即使如此,“哥布林”现象仍然难以禁绝。存在问题的不只是ChatGPT,其他大语言模型也一样。例如Grok,它偏执地认定南非存在白人种族灭绝。

Riedl说:“这次出现的是哥布林,下次可能是别的什么,类似现象不会消失。”(小刀)