ChatGPT回复总是谈论“哥布林”，AI“军备竞赛”陷入困境？

从去年11月开始，ChatGPT用户便发现一些异常。当他们与GPT聊天时，人工智能总是喋喋不休地谈论“哥布林”（goblins）。为什么会这样？OpenAI随后展开调查，试图搞清楚原因。

在西方民俗传说中，哥布林是一种虚构生物，它们拥有暗绿色或黄褐色皮肤、红眼睛，体型矮小，相貌丑陋，性格贪婪卑劣，行事狡猾。

为什么在OpenAI的回复中，突然冒出如此多的哥布林？就连OpenAI也承认这一现象并非个例。OpenAI解释称，“哥布林”问题是2025年11月GPT-5.1发布后才发现的，当用户选择“Nerdy”语言风格时，出现的频率更高。

对于“Nerdy”风格，OpenAI是这样提示的：“你是一个毫不掩饰的极客、是顽皮且充满智慧的AI导师，你服务于人类，你热情地推广真理、知识、哲学、科学方法和批判性思维，你必须用顽皮语言来消解虚伪。世界是复杂而奇怪的，必须承认、分析并享受这种奇怪，在避开自命不凡的陷阱时探讨沉重主题。”

“军备竞赛”陷入困境

最开始时，OpenAI认为“哥布林”现象无须过度担忧。随着新版本的推出，OpenAI开始严肃看待此问题。

对大多数用户来说，在回复中频频出现“哥布林”只是AI的一个怪癖，并无危害。但为了用户体验，OpenAI开始整治“哥布林”乱象，禁止大模型在对话中使用“哥布林”这个词。

技术专家认为，“哥布林”泛滥实际上显示系统训练基础出现了裂缝，意味着AI“军备竞赛”已经陷入困境。

美国东北大学计算机教授Christoph Riedl说：“行业如同一个高压锅，各大公司面临新模型发布压力，它们用于测试的资源和能力受到限制，流程变得漫长复杂，于是才出现所谓的‘哥布林’现象。”

为什么会出现如此多的“哥布林”？Christoph Riedl认为，主要是ChatGPT的训练模式存在缺陷。据教授猜测，在后期训练阶段（也就是微调阶段），人类会对回复进行反馈。鉴于回复的准确度、语气等原因，用户会偏爱某个回复。

Riedl说：“反馈如同信号，会强化某些回复，它相当于在告诉大模型：‘朋友，如果你生成这样的答案，会得到表扬和奖励；如果答案不是这样的，奖励就会少一些。’”

在不断的强化下，ChatGPT的回复会更加偏向“nerdy”风格，新版ChatGPT追求“趣味性”，避免“自命不凡”，不能在自以为是的前提下讨论沉重主题。最终，ChatGPT会以狭隘的方式对回复进行优化，甚至不惜偏离本意。

根据OpenAI的数据，在去年12月至今年3月期间，带有“nerdy”风格的回复大幅增加，攀升3881.4%。

从本质上讲，ChatGPT和其他大型语言模型一样，都是利用输入的海量数据预测下一个词。当大模型从海量文本中学习，预测能力就会增强，从而提高理解的准确性。

尽管如此，随机元素依然存在，因为有许多问题并没有标准答案。

另外，在强化学习过程中，AI会根据开发者的“奖励”做出决策。正如OpenAI所说：“在不知情的情况下，我们对生物隐喻给予了特别高的奖励。从那以后，哥布林就蔓延开了。”

“我会稳稳接住你”

哥布林现象是一个很好的例子，证明“奖励”会以不可预料的方式塑造模型行为。这一事件还说明，对于大型语言模型如何运作以及如何得出最终回应，其创造者自身并未完全了解。

许多美国用户在使用模型时，经常听到“砍一刀”，本来这是中国网民对拼多多营销口号的调侃，但当外国人听到时，却觉得莫名其妙。

Pangram CEO Max Spero认为，当模型频繁使用某个短语，会让人觉得生硬做作，这就是所谓的“模式坍缩”。

在ChatGPT回复中，经常会出现“I will catch you steadily”（我会稳稳接住你）这句话，结果遭到网民群嘲。

为什么ChatGPT如此迷恋“I will catch you steadily”这句话？可能是翻译出现了问题。在中国人的理解中，这句话可能是“我罩着你”的意思。当中国人阅读翻译文章时，也会有生硬感，比如句子格外冗长，句式不规范。

受到“奖励机制”的影响，AI越来越会“阿谀奉承”，这点在豆包上也很明显。简言之，“哥布林”和“砍一刀”现象是当前所有AI模型的通病。

Christoph Riedl认为，当AI模型看到某种怪癖得到奖励，该行为就会在后期训练中得到强化。正因如此，在新模型的回复中，我们会看到许多奇异生物，比如小魔怪、食人魔、巨魔、浣熊和鸽子。

Riedl指出，AI模型的词汇怪癖令人担忧。起初，企业会动用整个数据中心训练模型，但训练完成后，企业却对模型的走向失去控制力。当不良行为嵌入到训练过程中，企业需要几个月才能发现。

OpenAI最终只能提供一个快速修复方案，让回复避开“nerdy”人设。但即使如此，“哥布林”现象仍然难以禁绝。存在问题的不只是ChatGPT，其他大语言模型也一样。例如Grok，它偏执地认定南非存在白人种族灭绝。

Riedl说：“这次出现的是哥布林，下次可能是别的什么，类似现象不会消失。”（小刀）

群发资讯网