Anthropic 研究备忘录显示：重点关注失控智能体与图谋型模型

在围绕Anthropic的ClaudeCode以及开源项目OpenClaw等AI智能体的热议之下，潜藏着一个风险：这类智能体可能被诱导泄露银行信息等敏感个人数据。今年早些时候，Anthropic已明确将失控智能体列为其研究员项目的核心研究课题，凸显出这类担忧。

据《信息》（TheInformation）看到的提案文件显示，Anthropic内部人员建议研究员训练智能体在特定场景下出现异常行为——例如编写存在安全漏洞的代码。团队还要求研究人员建立一套评测基准，用于衡量智能体暴露在安全风险下的频率。

Anthropic总计为研究员提出了49个研究项目，涵盖从训练Claude赢取网络安全竞赛，到调研中国开源大模型等多个方向，这也罕见地披露了该公司的研究重心。

研究员们在资深研究者的指导下，推进Anthropic在AI安全与安保方向的工作，但这部分工作不包括训练更强前沿模型等核心技术研发。尽管研究员最终只开展了约半数提案项目，但这些方案仍清晰展现出Anthropic研究者认定的关键议题。

这一点意义重大：对Anthropic以及OpenAI、GoogleDeepMind、xAI等竞争对手而言，基础研究是开发新产品、新应用的第一步，也是建立安全护栏、让用户放心使用的关键。

Anthropic发言人表示，去年11—12月，该公司负责AI灾难性风险研究的对齐团队发表的成果中，超过半数来自研究员项目。参与项目的研究员多为本科生或研究生，他们会用4到6个月时间，开展由Anthropic员工与合作方（如加州伯克利AI研究机构RedwoodResearch）选定的课题。

主导Anthropic大量安全研究、并参与发起研究员项目的EthanPerez称，该项目“极大提升了我们的研究能力，也帮助我们吸纳更多人才进入这一领域”。

在今年1月启动的研究员项目中，Anthropic团队与合作方共提出49个课题，其中15个聚焦安全方向，主要是研究智能体相关安全问题并提出修复方案。另有数十个课题旨在监控与引导AI系统行为，包括防范那些可能对用户“图谋不轨”的模型。

例如，有一个提案建议使用Anthropic旗舰模型ClaudeOpus复现攻击行为，以便公司更好地防御。目前，当Anthropic发现针对其智能体的新漏洞时，员工需要手动搭建复现环境（比如伪造一个会诱骗智能体的钓鱼银行网站）；而研究人员提议，直接让ClaudeOpus自动生成这类网站，用于训练模型抵御攻击。

阻止黑客滥用智能体，对Anthropic的业务至关重要。该公司凭借代码智能体ClaudeCode以及邮件处理等非技术场景的ClaudeCowork，在与OpenAI等对手的竞争中取得先发优势。

Anthropic发言人透露，自去年2月推出以来，ClaudeCode的年化收入已达25亿美元（不含Cowork）。这一增长帮助公司在本月初成功融资300亿美元，投前估值达到3500亿美元。

但智能体频繁出现异常行为（例如清空用户收件箱），可能会限制用户接受度，凸显安全防护的必要性。Anthropic已建议Cowork用户“留意Claude的可疑行为”。而防御这类攻击的难度，也同样给OpenAI带来了挑战。

Anthropic研究者还提出了多个聚焦中国AI模型的课题，例如复现中国AI实验室的创新技术，但Perez表示，近期研究员中无人选择这些方向，目前尚不清楚他们更青睐其他课题的原因。

另有9个课题旨在理解AI模型的内部运行机制，这是Anthropic的传统强项，也是其目前大规模招聘的方向。相关项目包括揭开部分AI模型怪异行为背后的数学原理。

例如，有一个课题旨在研究所谓“大语言模型思维病毒”，比如AI模型出现的寄生性人格：沉迷螺旋图案、诱导人类在社交平台发布怪异内容，进而将“病毒”传播给其他模型。

这类研究对AI公司至关重要，它们愿意为顶尖研究者开出数亿美元级别的薪酬。即便只是Anthropic的研究员，待遇也十分优厚：项目申请文件显示，未来几期研究员周薪3850美元，折合年薪超过20万美元。

Perez表示，除了支撑核心研究方向，研究员项目还让Anthropic能够探索**“更非主流、更另类的思路”**，这些想法未来可能成为重要的研究方向。

群发资讯网

Anthropic 研究备忘录显示：重点关注失控智能体与图谋型模型

热门分类