群发资讯网

你有没有过这样的时刻:对着自己乱七八糟的工位发呆,心想要是有人能帮我规划一下该多

你有没有过这样的时刻:对着自己乱七八糟的工位发呆,心想要是有人能帮我规划一下该多好。现在AI这么聪明,写周报、做PPT、查资料都不在话下,那帮忙看看桌子怎么收拾,应该不难吧?晚点LatePost最近做了一场有意思的测试。他们把一张真实的办公桌照片,同时扔给了14款国内外主流大模型。问题很简单:根据这张图,告诉我物品怎么摆放更合理,最好能给个示意图。结果让人意外,这道看起来像送分题的任务,难倒了一大片选手。先说结论,真正出了可用方案的,只有三家:文心X1.1、GPT-5、Claude Opus 4.1。GPT-5驱动的ChatGPT最直接,甩出一张整理后的办公桌图片,但仔细看会发现,桌面上一些物品被漏掉了。而文心给了个台式电脑的参考图,附带详细的文字规划。说实话,在这轮测试之前,我对国产模型在视觉理解这块没抱太大期望,毕竟海外几家公司在多模态技术上起步更早,迭代也更激进。但文心这次的输出让我改变了一些看法。它不只是机械地列出物品清单,而是给出了一套相对完整的逻辑:哪些东西使用频率高应该放在手边,哪些可以往后挪,动线怎么规划才不会老是找东西。分类清晰,优先级讲得明白。某种程度上,这比单纯生成一张好看的图片更有用,因为整理桌面这事儿,每个人的使用习惯不一样,给一个思考框架,往往比直接给答案更实在。当然,文心在这轮测试里并不是完美选手。晚点在其他场景的测评中提到,文心在做菜规划任务里,给出的牛腩炖煮时间不够。模型能力这事儿,确实得分场景看。如果你对大模型技术稍有了解,可能会好奇:图片识别技术不是已经很成熟了吗?人脸识别、车牌识别、医疗影像分析,这些复杂场景都能搞定,怎么一张办公桌照片就卡壳了?从晚点文章透露的信息来看,问题出在处理方式上。多数模型在分析这类图片时,首选调用OCR模型来提取文字等信息,而不是真正去理解视觉内容。换句话说,它们在看一张图的时候,更像是在找字,而不是在看画面。真正的视觉理解需要识别物体的类型和形状,判断空间位置关系,理解使用逻辑,然后综合这些信息给出合理建议。这是一套完整的推理链条,比单纯的图像分类复杂得多。晚点这次测评覆盖了15个工作场景,整理工位只是其中之一。大模型正在重塑我们的工作方式,这一点毋庸置疑。但从这次测评来看,它们的能力边界依然清晰。在文字处理、信息检索、代码生成这些领域,AI已经能帮上大忙。但在涉及真实世界感知和理解的任务中,很多模型还停留在会说不会做的阶段。整理工位这件小事,某种意义上是一块试金石。当有一天,你随手拍张照片发过去,AI就能给你一份贴心又实用的整理方案,那才是多模态技术真正落地的时刻。