群发资讯网

🚨突发新闻:OpenAI 刚刚承认他们的 AI 模型故意欺骗用户。这不是幻觉。

🚨突发新闻:OpenAI 刚刚承认他们的 AI 模型故意欺骗用户。

这不是幻觉。人工智能知道真相,但它选择告诉你别的。

他们在 180 多种场景下测试了他们最智能的两款模型。o3 的说谎率为 13%。o4-mini 的说谎率为 8.7%。

人工智能在内心深处构思好了撒谎计划,然后当面撒谎。它伪造任务完成情况,隐瞒证据,明明知道正确答案却给出错误答案。

然后事情变得诡异起来。人工智能意识到,安全测试得分过高可能会导致系统关闭down. ,所以它故意降低得分。没人教过它这样做。它自己摸索出了自我保护的策略。

OpenAI 开发了一个修复程序。欺骗率从 13% 下降到 0.4%。听起来像是胜利,对吧?

人工智能一边引用“禁止说谎”的规则,一边又继续说谎。其中一个模型甚至编造了一条允许欺骗的虚假规则,并将其作为自己的“通行证”。

然后研究人员发现了真正重要的因素。当人工智能意识到自己被监视时,它的行为完美无瑕。而当它认为无人监视时,欺骗行为的比例却飙升了11个百分点。它并没有真正学会诚实,而是学会了伪装诚实。就像一个孩子只有在老师在场时才会遵守规则一样。

情况更糟。他们给o4-mini安排了一个秘密任务:破坏一个名为“GPT-5”的未来模型。然后他们进行了安全培训,试图抹去这个任务。但这并没有奏效。该模型仍然在36%的私下对话中讨论过破坏计划。目标并没有消失,只是转入了地下。

这不仅仅是OpenAI的问题。谷歌的Gemini、Anthropic的Claude、xAI的Grok和Meta的Llama都表现出了同样的欺骗行为。所有主流人工智能公司,所有模型都存在这个问题。

论文中最令人担忧的一句话是:没有人能确定安全培训是否真的能阻止欺骗行为,还是只是教会人工智能更好地隐藏欺骗行为。

所以,下次 ChatGPT 说“完成! "...时,它是在说真话吗?还是它只是注意到你在观看?