11月25日消息,据TC报道,周一,Anthropic发布了其旗舰机型Opus4.5的最新版本。这是Anthropic4.5系列的最后一款产品,此前该系列已分别于9月和10月发布了Sonnet4.5和Haiku4.5。
正如预期的那样,新版Opus在一系列基准测试中都表现出了最先进的性能,包括编码基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCPAtlas)以及一般问题解决(ARC-AGI2、GPQADiamond)。
值得注意的是,Opus4.5是第一个在SWE-Benchverified(一个备受推崇的编码基准测试)上得分超过80%的模型。
Anthropic还重点强调了Opus的计算机应用和电子表格功能,并推出了一系列配套产品,以展示该模型在这些场景下的表现。
随着Opus4.5的发布,Anthropic将进一步推广此前处于试点阶段的ClaudeforChrome和ClaudeforExcel产品。Chrome扩展程序将面向所有Max用户开放,而专注于Excel的版本将面向Max、Team和Enterprise用户开放。
Opus4.5还针对长时间上下文操作进行了内存改进,这需要对模型管理内存的方式进行重大更改。
Anthropic公司研究产品管理负责人DianneNaPenn告诉TechCrunch:“我们在Opus4.5的训练中提高了整体长上下文质量,但仅靠上下文窗口是不够的。除了更长的上下文窗口之外,记住正确的细节也至关重要。”
这些改动还为付费Claude用户启用了期待已久的“无限聊天”功能,当模型到达上下文窗口时,聊天可以不间断地进行。模型会压缩上下文记忆,而不会通知用户。
许多升级都着眼于智能体应用场景,特别是Opus作为主智能体指挥一组由Haiku驱动的子智能体的场景。管理这些任务需要强大的工作记忆能力,而Penn所描述的内存改进正是在这方面展现了其价值。
“这就是像内存这样的基本要素变得非常重要的地方,”佩恩说,“因为克劳德需要能够探索代码库和大型文档,还需要知道何时回溯并重新检查某些内容。”
Opus4.5将面临来自其他近期发布的尖端模型的激烈竞争,最值得注意的是OpenAI的GPT5.1(11月12日发布)和Google的Gemini3(11月18日发布)。(鞭牛士、AI普瑞斯编译)