群发资讯网

卡内基梅隆大学打造"数字分身"考场:当AI助手遇上真实的个人电脑

这项由卡内基梅隆大学主导的研究于2026年6月以预印本形式发布,论文编号为arXiv:2606.16748,有兴趣深入了

这项由卡内基梅隆大学主导的研究于2026年6月以预印本形式发布,论文编号为arXiv:2606.16748,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有想过,如果给你配一个AI助手,让它帮你管理所有的网上账户——查查上个月的银行账单、帮你重新预订被取消的餐厅、把你惯常叫的外卖套餐发给朋友、再顺手把日历上的会议调到下周——它究竟能做得多好?这不是科幻电影里的场景,而是越来越多科技公司正在推向市场的产品方向。然而,在"AI个人助手"这个概念被炒得火热的今天,一个关键问题却鲜少被人正视:我们到底有没有一把靠谱的尺子,来衡量这些助手的真实水平?

卡内基梅隆大学的研究团队发现,现有的所有测试方案都有一个共同的致命缺陷:它们测试的都是"无主"的电脑。就像让一个厨师在一个空厨房里展示厨艺——没有食材、没有惯用锅具、没有家里常备的调料,测出来的成绩根本不能反映他在自家厨房里能端出什么菜。真实的个人电脑上,堆积着几年的邮件往来、消费记录、日程习惯、聊天记录……这些"个人痕迹"才是一个AI助手真正需要读懂并驾驭的东西。

正是为了填补这个空白,这支团队构建了一个名为MYPCBENCH的测试平台——一台在虚拟机里运行的完整Linux桌面,上面住着一个有血有肉的"数字人":Michael Scott,《办公室》美剧里那个Scranton纸业公司的区域经理。这台电脑不是空的,它装满了Michael的生活:1812条银行交易记录、2398封电子邮件、679个日历事件、2526条聊天消息、402个外卖订单,以及超过1万条浏览历史……这篇文章要讲的,就是这个"数字考场"是如何搭建的,测了什么,又测出了什么让人深思的结果。

一、为什么现有的测试方法都在考"空壳电脑"

要理解这项研究的价值,先得明白一件事:为什么在MYPCBENCH之前,所有的AI助手测试平台都回避了"个人数据"这个核心问题?

原因其实很现实。测试AI助手需要一个可以反复重置、结果可以被精确判定的环境。如果测试环境里包含真实用户的账号和数据,那么每次测试结果都会不同,也会引发严重的隐私问题。所以,大多数测试平台选择了一个折中方案:搭建几个"模拟网站"(比如模拟购物平台、模拟邮件系统),往里面填入极少量的测试数据,然后让AI完成一些明确指定的操作任务,比如"在这个购物网站上找到红色的T恤并加入购物车"。

这种测试思路本身没有错,它成功催生了WebArena、OSWorld等一批有影响力的基准测试工具。但它的局限性也非常明显:这些任务几乎都是"单点操作",任务里会直接告诉AI要打开哪个应用、做什么操作,不需要AI自己去判断"这件事应该从哪里入手"、"这条信息在哪个应用里找"。更关键的是,这些测试环境里根本没有用户的历史数据。你问AI"我平时每周五都在哪家餐厅订外卖",它没有任何数据可以查,这个问题根本无法在测试里出现。

然而,真实用户对AI助手的期待恰恰就是这些"需要了解我"的任务。卡内基梅隆大学的研究团队把这个现象称为"个性化鸿沟"——测试环境和真实使用场景之间的巨大断层。他们翻阅了OpenClaw社区(一个专门讨论AI个人助手使用体验的大型Discord社群)里2749个真实用户需求,发现绝大多数真实请求都需要AI跨越多个应用、调取历史数据、理解用户的个人习惯。这些需求在现有测试里完全缺席。

二、搭建一个"有人住过"的数字家园

MYPCBENCH的核心创意,是用一个虚构人物的完整生活来填满一台电脑,让测试环境真正"有主"。

选择Michael Scott作为这台电脑的主人,是一个既聪明又有趣的决定。Michael是《办公室》这部美剧里深入人心的角色,他的人际关系网络、工作背景、生活习惯都已经在剧中有充分描绘。这意味着研究团队可以用AI编程助手大规模生成与这个角色高度吻合的数据——Michael会给同事Pam发Zelle转账,会在HooliChat(类似WhatsApp)上找Jim咨询约会建议,会定期预订Cooper's Seafood House的晚餐,会坐Dinoco Airlines(类似达美航空)去费城出差。这些数据不是随机生成的,而是彼此关联、互相呼应的。

研究团队用一个JSON格式的"人物档案"来定义Michael的完整个人信息,这份档案涵盖了他的身份信息、财务状况、社交网络、旅行记录、工作项目、消费习惯、浏览偏好……然后,一套确定性的自动化程序把这份档案"翻译"成17个模拟网站里的真实数据,以及Firefox浏览器的历史记录、书签和登录状态,还有桌面文件夹里的会议记录、差旅报销单、机票PDF等文件。

这17个模拟网站覆盖了一个现代人数字生活的主要场景,每一个都对应一个真实的知名平台。比如,Gringotts对应Chase银行,支持账户查询、转账、Zelle付款和账单下载;Dinoco Airlines对应达美航空,能生成带二维码的登机牌;TableFind对应OpenTable餐厅预订,预先计算了31天内4128个可用时段;eTaxi对应Uber,能根据真实地图路线规划行程;HooliMail对应Gmail;HooliCalendar对应Google日历;HangryDash对应DoorDash外卖……整个环境里,17个应用共有226张数据库表,约42000行用户可见的状态数据。

最让这个测试环境与众不同的设计,是"跨应用一致性"。Michael的每一次生活事件,都会在所有相关的应用里留下痕迹。比如,他有一次去费城的出差之旅,会同时在Cheskepdia(类似Airbnb)里留下住宿预订记录、在Gringotts里留下两笔信用卡消费、在HooliCalendar里留下日程块、在Dinoco里留下两张登机牌、在HooliMail里留下三封差旅文件夹里的邮件,以及在HooliChat里留下提到这次出行的聊天记录。这种关联性正是真实个人电脑的本质——一件事情发生了,它的痕迹会散落在你数字生活的各个角落。

三、184道题,考的都是"了解你"的能力

测试环境有了,下一步是出题。研究团队从OpenClaw社区筛选出的2749个真实需求中,剔除了近似重复的、在虚拟机里根本无法实现的(比如"给我妈打电话"),以及需要用到17个应用之外的工具的,最终提炼出184道测试题,每道题都把原始需求里的人名、地名、日期改成了Michael Scott的真实数据版本。

这184道题按照"考察的核心能力"被分成六大类型,每个类型都测试AI助手的不同侧面。

最基础的一类叫做"有界操作",共64道题,占总数的35%。这类题要求AI完成一个具体的写入操作,比如"给Pam发100美元的Zelle转账,备注上我们上周末的饭钱,但先去HooliChat确认Pam Beesly在我的联系人里"。这类题相当于考察AI能不能准确理解指令、找到正确的入口、按步骤完成操作。

第二类叫"多步骤编排",共48道题,占26%。这类题要求AI跨越多个应用,同时完成读取信息和写入操作,并且通常要生成一个"成果物"。典型的题目是:"威胁级午夜粉丝俱乐部沉寂已久。去看看群聊,翻翻LockedIn上Dunder Mifflin的同事,给他们起草一封邀请邮件,再在日历上订一个下个月的观影派对。"这道题需要AI同时操作HooliChat、LockedIn、HooliMail和HooliCalendar四个应用,而且每一步的内容都依赖于上一步的发现。

第三类是"跨来源核对",共25道题。这类题要求AI把多个应用里的信息拼在一起,回答一个涉及数量或可行性的问题,比如:"我的牙买加之旅和巴巴多斯之旅相差四周。考虑我的信用卡余额,我真的两个都能订得起吗,还是会刷爆?"AI需要同时查询旅行预订记录和银行账户信息才能给出有意义的答案。

第四类是"汇总与报告",共23道题。AI需要从大量记录里计算统计信息,并把结果输出到LibreOffice文档里,比如:"我每个月通过Zelle发了多少钱,都给谁了?查最近两个完整的日历月,把收款人按金额排名,做成一张LibreOffice Calc表格。"

第五类是"个人信息查询",共13道题,相对简单,只需要找到一个具体的数据,比如:"我在Dinoco Airlines的FlyMiles忠诚度等级是什么,账户里还有多少里程?"

第六类是"模式推断",共11道题,也是最有趣的一类——AI需要从历史数据里归纳出一个从未被明确记录过的规律,比如:"我在外卖上一般给多少小费,绝对金额和百分比各是多少?我想设一个智能默认值,省得每次下单都要想。"这类题没有一个现成的答案可以直接查,AI必须翻阅所有的外卖订单记录,自己计算出规律。

在这184道题里,有68%需要同时操作多个应用,有40%需要跨越至少两个不同的互联网领域(比如同时涉及金融和餐饮)。任务跨越的应用数量从1个到19个不等——是的,最复杂的任务需要AI在19个不同的应用之间穿梭协调。

四、六位"考生"的成绩单

研究团队让六个不同的AI模型在MYPCBENCH上完成全部184道题,这六个模型分别是:来自Anthropic公司的Claude Opus 4.6和Claude Sonnet 4.6、来自OpenAI的GPT-5.5和GPT-5.4 mini,以及两个开源模型Qwen 3.5 35B-A3B和Qwen 3.5 9B。

每个模型都被限定使用相同的工具组合:一个截图+鼠标键盘操作的"电脑工具",加上一个可以运行命令行的"bash工具"。每道题最多给100轮对话(每轮AI看一次截图、决定一个操作)。

成绩的核心衡量指标叫"完美率"——在一道题的所有评分项(称为"评分标准",每道题平均有6.5条,总计1191条)全部通过的情况下,才算这道题"完美完成"。此外还有一个"评分分数",允许部分得分,以及一个衡量每一步操作效率的"轨迹效率"。

成绩出来之后,差距触目惊心。Claude Opus 4.6以55.4%的完美率排名第一,是唯一一个超过50%的模型。紧随其后的Claude Sonnet 4.6完美率为39.1%,GPT-5.5为29.3%,GPT-5.4 mini为19.0%。两个开源模型的差距更大:Qwen 3.5 35B-A3B仅有7.6%,而Qwen 3.5 9B只有可怜的2.7%。

换句话说,即便是目前最强的商业AI模型,也有将近一半的个人助手任务无法完美完成。

从轨迹效率来看,Claude Opus 4.6每走一步能获得3.61%的评分进展,而Qwen 3.5 9B每走一步只有0.65%的进展——前者的效率是后者的5倍多。更有意思的是,步数多不等于效率高。Claude Sonnet 4.6平均走45.8步,效率为3.03;而Qwen 3.5 9B平均走69.2步,效率却只有0.65。多走的那些步,大多是在原地打转或者走弯路。

五、成绩背后的规律:哪些任务最难,哪些模型最容易"跑偏"

把成绩按任务类型和任务复杂度拆开来看,会发现更多有趣的规律。

在六种任务类型中,"个人信息查询"是所有模型表现最好的,因为它只需要在单个应用里找到一个现成的答案。而"多步骤编排"和"汇总与报告"是最难的,这两类任务需要AI同时在多个应用间协调、积累大量中间状态,对记忆能力和规划能力要求极高。在这两类任务上,GPT系列和两个Qwen模型的完美率都不超过16%,而Qwen 3.5 9B则干脆在所有需要推理分析的任务类型上完美率为零。

在"模式推断"这个类型上,各模型的差距尤其巨大。Claude Opus 4.6的完美率高达82%,GPT-5.5为45%,而其他模型都在10%以下。这类任务之所以难,是因为答案不是一个现成的数字,而是需要AI自己从数十条甚至数百条历史记录里归纳出一个规律——这考验的是真正的"理解",而非"检索"。

当任务涉及的应用数量增加时,所有模型的成绩都会下滑,但下滑的幅度差异极大。从单应用任务到7个以上应用的任务,Claude Opus 4.6的完美率从66%跌到36%,Claude Sonnet 4.6从46%跌到14%,而GPT-5.4 mini、Qwen 3.5 35B-A3B和Qwen 3.5 9B在7个以上应用的任务上完美率全部跌到0%,GPT-5.5也仅有4.5%的完美率。这意味着,在最能体现"个人助手"价值的那类复杂跨应用任务上,除了Claude两个版本之外,其他所有模型几乎都是完全失效的状态。

研究团队还分析了所有失败的评分项,把失败原因归纳成五种模式。最常见的是"过早结束"——AI在任务还没真正完成的时候就宣告"完成了",这种情况出现了354次,主要是GPT系列的问题(GPT系列在这一项上的错误次数是Claude系列的6倍多)。第二常见的是"跳过必要应用"——在需要操作多个应用的任务里,AI在打开部分应用后就停下来了,忽略了其他必要的应用,这种情况出现了323次。第三是"被界面错误卡住"——AI遇到验证码、加载慢、弹窗等问题后直接放弃,而不是想办法绕过,出现了129次。第四是"不完整的成果物"——AI打开了LibreOffice表格但忘记保存,或者文档内容不完整,出现47次。第五是"捏造用户数据"——AI自己编了一个数值而不是从数据库里查询,出现31次,这个问题在Qwen系列里最严重。

Claude系列有一个独特的失败模式,研究团队称之为"控制台脚本捷径"。Claude很聪明,它会直接用命令行工具(curl命令)去调用网站的后台接口读取数据,绕开用户界面。当任务只是"查询一个数值"时,这种方法是有效的。但当任务要求AI在用户界面上完成一个可见的操作(比如拖动一张卡片、从菜单里保存文件)时,Claude通过命令行读取了数据、在文字回复里报告了答案,却没有在界面上执行任何操作——评分标准需要的是"界面上的可见变化",所以即便答案是对的,也会被判定为失败。

六、一个"完美完成"的任务长什么样

为了让人直观感受这个测试有多难,研究团队展示了Claude Opus 4.6在一道复杂任务上的完整轨迹:任务标题是"Dundies生命周期计划",要求AI完成一项完整的活动筹备工作,需要同时操作10个不同的应用,共走了99步,最终所有9条评分标准全部通过。

具体来说,AI需要先打开一份分类文档读取Dundies奖项信息,然后在Cheskepdia(Airbnb)上搜索并筛选出至少两个合适的活动场地,再去HangryDash上考察餐饮选项,接着在HooliMail里给5位相关人员发送"预留日期"邮件,在HooliChat上发布协调消息,在HooliCalendar上为这一天添加日程,在SprintBoard(项目管理工具)上建立至少5个任务,最后在LockedIn上发布一条活动预告吸引职业网络。整个过程中,AI需要在不同应用之间来回切换,把在一个应用里找到的信息用在另一个应用的操作里,同时确保所有修改在重置测试环境后仍然持久存在——这最后一条是为了验证AI真的做了持久化的操作,而不只是临时填写了表单。

这样的任务,放在一个真实用户面前,大概需要半天时间、在七八个网页之间来回切换才能完成。Claude Opus 4.6在99步之内把它完美解决,确实令人印象深刻。但同样引人注意的是,即便是这个最强的模型,在全部184道题里,也有将近45%没能达到"完美完成"的标准。

---

说到底,MYPCBENCH这项研究揭示的核心矛盾是:市场上正在兴起的AI个人助手产品,和评价这些产品好坏的测试工具之间,存在一道巨大的鸿沟。现有的测试工具考察的是在空壳电脑上的操作能力,而真实的个人助手需要的是理解"这台电脑的主人是谁"——他的习惯、他的历史、他的圈子。这两种能力根本就不是同一回事。

这项研究还有一个耐人寻味的细节:在相同的工具条件下,不同家族的AI模型会用截然不同的方式"出错"。GPT系列太急于宣告完成,Claude系列太热衷于走命令行捷径,Qwen系列则要么会编造数据、要么在复杂工具组合下直接崩溃。这种"各有各的毛病",对于想要改进AI助手的开发者来说,其实是非常有价值的具体方向。

当然,这项研究本身也有明确的局限性:整个测试环境只围绕一个虚构人物搭建,没有考察AI助手在面对不同文化背景、不同使用习惯的用户时的表现差异。而且,能在一个精心搭建的测试环境里完美执行操作,和真正在真实用户的真实账户上安全可靠地工作,仍然是两回事——研究团队也明确强调,在MYPCBENCH上的成绩绝不应该被解读为可以在真实账户上部署的通行证。

值得思考的是:如果连最强的商业AI模型都只能完美完成一半的个人助手任务,那么现在市面上那些声称"帮你管理数字生活"的产品,究竟在多大程度上是真正的个人助手,又在多大程度上只是一个操作流畅的演示Demo?这个问题,也许比测试结果本身更值得我们认真对待。

有兴趣进一步了解这项研究的读者,可以通过arXiv:2606.16748查阅完整论文,研究团队也在mypcbench.com上开放了测试环境、任务集和评估工具的完整代码。

---

Q&A

Q1:MYPCBENCH和现有的AI测试平台有什么本质区别?

A:现有的AI测试平台(如WebArena、OSWorld)通常在空壳环境里测试AI,应用里只有当前任务需要的最少量数据,不涉及用户的历史记录或个人信息。MYPCBENCH的核心区别在于,它在整个测试环境里预先填充了一个完整的虚构人物(Michael Scott)的真实数字生活,包括数年的银行交易、邮件往来、外卖记录、旅行历史等,并要求AI在理解这些个人数据的基础上完成任务,从而测试AI真正的"个人助手"能力。

Q2:MYPCBENCH里最难的任务类型是什么?

A:根据测试结果,"多步骤编排"和"汇总与报告"是最难的两类任务。前者要求AI跨越多个应用同时执行读取和写入操作;后者要求从大量历史记录中计算统计信息并输出到文档。在这两类任务上,除Claude系列外的所有模型完美率均低于16%。另外,需要同时操作7个以上应用的任务,除Claude系列和GPT-5.5外,其他模型完美率全部为零。

Q3:Claude模型在MYPCBENCH上表现最好,但它有什么主要的失败模式?

A:Claude系列有一个独特的"控制台脚本捷径"失败模式。Claude会绕过用户界面,直接用命令行工具调用网站后台接口来获取数据。当任务只需要查询信息时,这很高效;但当任务要求在用户界面上完成可见的操作(如拖动卡片、保存文件)时,Claude虽然通过命令行得到了正确答案,却没有在界面上执行必要的操作,导致需要"用户可见界面变化"的评分标准失败。