我在技术上分析(猜测)一下为何豆包手机的能力这么强。1首先传统手机品牌的 OS 部门,都被 GUI 的 UI UE UX 的领导把控了。。。这些人对 Android 系统的技术问题其实都一知半解,更别说 AI 了。。。他们不会革命自己的。这就类似于奔驰宝马的重要部门,都是搞汽油发动机的出身,那么,电车的革命就落后了。2实际上豆包手机操作屏幕不需要一个太大的 LLM 。但是前提是改一下 Android 底层,通过类似 Accessibility API 可以拿到很小的 json ,是 UI 的文字描述。这样处理负荷就非常小了。3如果需要视觉, CNN 模型或者 OCR 等,规模和 LLM 也是不一样的。说不定有本地辅助。4对于 Apps 的操作,就是纯模拟的了,所以可以不和任何 App 提前沟通 API 支持,直接操作。总的而言,豆包手机应该是直接从 Android 底层拿到了 UI 的 json 来操作手机的。视觉模型本地模型作为辅助(看图片什么的)。而解析和理解本地复杂模型,用来制定 Agent 的 todo list 的模型,大概还是在云上的。(其实本地如果有 3B 左右的,也未必不行,看具体 SLM 的能力了)所以,端云结合,复合模型,agent 的基本技术路线,已经确定了。。。其实这些所有的技术人员都能想得到。而且不是今天才能想到。让我们更自由,更方便的障碍从来不是技术,而是这些传统品牌的商业壁垒。我已经搞了一个,到货可以评测一下。