你有没有过这样的时刻：对着自己乱七八糟的工位发呆，心想要是有人能帮我规划一下该多

你有没有过这样的时刻：对着自己乱七八糟的工位发呆，心想要是有人能帮我规划一下该多好。现在AI这么聪明，写周报、做PPT、查资料都不在话下，那帮忙看看桌子怎么收拾，应该不难吧？晚点LatePost最近做了一场有意思的测试。他们把一张真实的办公桌照片，同时扔给了14款国内外主流大模型。问题很简单：根据这张图，告诉我物品怎么摆放更合理，最好能给个示意图。结果让人意外，这道看起来像送分题的任务，难倒了一大片选手。先说结论，真正出了可用方案的，只有三家：文心X1.1、GPT-5、Claude Opus 4.1。GPT-5驱动的ChatGPT最直接，甩出一张整理后的办公桌图片，但仔细看会发现，桌面上一些物品被漏掉了。而文心给了个台式电脑的参考图，附带详细的文字规划。说实话，在这轮测试之前，我对国产模型在视觉理解这块没抱太大期望，毕竟海外几家公司在多模态技术上起步更早，迭代也更激进。但文心这次的输出让我改变了一些看法。它不只是机械地列出物品清单，而是给出了一套相对完整的逻辑：哪些东西使用频率高应该放在手边，哪些可以往后挪，动线怎么规划才不会老是找东西。分类清晰，优先级讲得明白。某种程度上，这比单纯生成一张好看的图片更有用，因为整理桌面这事儿，每个人的使用习惯不一样，给一个思考框架，往往比直接给答案更实在。当然，文心在这轮测试里并不是完美选手。晚点在其他场景的测评中提到，文心在做菜规划任务里，给出的牛腩炖煮时间不够。模型能力这事儿，确实得分场景看。如果你对大模型技术稍有了解，可能会好奇：图片识别技术不是已经很成熟了吗？人脸识别、车牌识别、医疗影像分析，这些复杂场景都能搞定，怎么一张办公桌照片就卡壳了？从晚点文章透露的信息来看，问题出在处理方式上。多数模型在分析这类图片时，首选调用OCR模型来提取文字等信息，而不是真正去理解视觉内容。换句话说，它们在看一张图的时候，更像是在找字，而不是在看画面。真正的视觉理解需要识别物体的类型和形状，判断空间位置关系，理解使用逻辑，然后综合这些信息给出合理建议。这是一套完整的推理链条，比单纯的图像分类复杂得多。晚点这次测评覆盖了15个工作场景，整理工位只是其中之一。大模型正在重塑我们的工作方式，这一点毋庸置疑。但从这次测评来看，它们的能力边界依然清晰。在文字处理、信息检索、代码生成这些领域，AI已经能帮上大忙。但在涉及真实世界感知和理解的任务中，很多模型还停留在会说不会做的阶段。整理工位这件小事，某种意义上是一块试金石。当有一天，你随手拍张照片发过去，AI就能给你一份贴心又实用的整理方案，那才是多模态技术真正落地的时刻。

群发资讯网

你有没有过这样的时刻：对着自己乱七八糟的工位发呆，心想要是有人能帮我规划一下该多

热门分类