群发资讯网

Anthropic 研究备忘录显示:重点关注失控智能体与图谋型模型

在围绕Anthropic的ClaudeCode以及开源项目OpenClaw等AI智能体的热议之下,潜藏着一个风险:这类智能体可能被诱导泄露银行信息等敏感个人数据。今年早些时候,Anthropic已明确将失控智能体列为其研究员项目的核心研究课题,凸显出这类担忧。

据《信息》(TheInformation)看到的提案文件显示,Anthropic内部人员建议研究员训练智能体在特定场景下出现异常行为——例如编写存在安全漏洞的代码。团队还要求研究人员建立一套评测基准,用于衡量智能体暴露在安全风险下的频率。

Anthropic总计为研究员提出了49个研究项目,涵盖从训练Claude赢取网络安全竞赛,到调研中国开源大模型等多个方向,这也罕见地披露了该公司的研究重心。

研究员们在资深研究者的指导下,推进Anthropic在AI安全与安保方向的工作,但这部分工作不包括训练更强前沿模型等核心技术研发。尽管研究员最终只开展了约半数提案项目,但这些方案仍清晰展现出Anthropic研究者认定的关键议题。

这一点意义重大:对Anthropic以及OpenAI、GoogleDeepMind、xAI等竞争对手而言,基础研究是开发新产品、新应用的第一步,也是建立安全护栏、让用户放心使用的关键。

Anthropic发言人表示,去年11—12月,该公司负责AI灾难性风险研究的对齐团队发表的成果中,超过半数来自研究员项目。参与项目的研究员多为本科生或研究生,他们会用4到6个月时间,开展由Anthropic员工与合作方(如加州伯克利AI研究机构RedwoodResearch)选定的课题。

主导Anthropic大量安全研究、并参与发起研究员项目的EthanPerez称,该项目“极大提升了我们的研究能力,也帮助我们吸纳更多人才进入这一领域”。

在今年1月启动的研究员项目中,Anthropic团队与合作方共提出49个课题,其中15个聚焦安全方向,主要是研究智能体相关安全问题并提出修复方案。另有数十个课题旨在监控与引导AI系统行为,包括防范那些可能对用户“图谋不轨”的模型。

例如,有一个提案建议使用Anthropic旗舰模型ClaudeOpus复现攻击行为,以便公司更好地防御。目前,当Anthropic发现针对其智能体的新漏洞时,员工需要手动搭建复现环境(比如伪造一个会诱骗智能体的钓鱼银行网站);而研究人员提议,直接让ClaudeOpus自动生成这类网站,用于训练模型抵御攻击。

阻止黑客滥用智能体,对Anthropic的业务至关重要。该公司凭借代码智能体ClaudeCode以及邮件处理等非技术场景的ClaudeCowork,在与OpenAI等对手的竞争中取得先发优势。

Anthropic发言人透露,自去年2月推出以来,ClaudeCode的年化收入已达25亿美元(不含Cowork)。这一增长帮助公司在本月初成功融资300亿美元,投前估值达到3500亿美元。

但智能体频繁出现异常行为(例如清空用户收件箱),可能会限制用户接受度,凸显安全防护的必要性。Anthropic已建议Cowork用户“留意Claude的可疑行为”。而防御这类攻击的难度,也同样给OpenAI带来了挑战。

Anthropic研究者还提出了多个聚焦中国AI模型的课题,例如复现中国AI实验室的创新技术,但Perez表示,近期研究员中无人选择这些方向,目前尚不清楚他们更青睐其他课题的原因。

另有9个课题旨在理解AI模型的内部运行机制,这是Anthropic的传统强项,也是其目前大规模招聘的方向。相关项目包括揭开部分AI模型怪异行为背后的数学原理。

例如,有一个课题旨在研究所谓“大语言模型思维病毒”,比如AI模型出现的寄生性人格:沉迷螺旋图案、诱导人类在社交平台发布怪异内容,进而将“病毒”传播给其他模型。

这类研究对AI公司至关重要,它们愿意为顶尖研究者开出数亿美元级别的薪酬。即便只是Anthropic的研究员,待遇也十分优厚:项目申请文件显示,未来几期研究员周薪3850美元,折合年薪超过20万美元。

Perez表示,除了支撑核心研究方向,研究员项目还让Anthropic能够探索**“更非主流、更另类的思路”**,这些想法未来可能成为重要的研究方向。