130: 手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机|Agent#4

晚点聊 LateTalk

97分钟 ·1 年前

15974

「智谱 AutoGLM 2.0 上线，字节酝酿“豆包手机”，苹果和华米OV 也不会缺席。」

本周三，智谱发布了首个手机通用 Agent，AutoGLM 2.0，能点外卖、买票、订餐；无邀请码直接用、免费。

（这期的封面就是，AutoGLM 上周日给参加产品交流会的朋友点点的奶茶~）

从市场规模和人群广度看，网页端的 Agent 是湖，手机端的 AI Agent 才是海。因为在中国，每天用手机的人，几乎等于总人口；而每天用电脑的人则少得多，很多人的日常生活和工作里根本不需要电脑。

图注：AutoGLM 2.0，电脑端、移动端都可用

现在，大模型公司、移动互联网巨头和手机公司，都想到这片海里寻宝，手机端 Agent 将来一定会是一个兵家必争之地。

现在我们已经看到了一些苗头：《晚点》昨天就发布了一篇独家报道，讲字节的豆包手机进展；据此前市场信息，美团的王莆中亲自带队做生活服务助手 beam；苹果、华米OV也一定不会缺席手机 Agent。

这期，我们邀请 AutoGLM 2.0 的算法、工程和产品负责人，刘潇。从 AutoGLM 切入，我们一起聊了移动端 Agent 目前的产品形态；大模型公司、超级 App 厂商和手机硬件厂商，在移动端 AI 上的三方竞合关系；也通过回顾 AutoGLM 的开发过程，梳理了这类产品的难点、研发思路和未来的迭代方向。

1999 年出生的刘潇，今年 26 岁，本科毕业于清华大学计算机系。

制作这期时，我算了一下，这是我们第四期专门聊 Agent 了，之后也会有更多相关内容。所以我给这 4 期都加了 Agent 后缀和编号，方便大家检索往期。

本期主播：程曼祺，《晚点 LatePost》科技报道负责人
本期嘉宾：刘潇，智谱 AutoGLM 算法、工程、产品负责人

时间线跳转：
-AutoGLM 2.0 速览
01:57 能点奶茶、能发帖，不占用屏幕、无邀请码直接上线、免费
05:作为用户的疑问：隐私、安全如何保障？关键步骤需接管，真能省事？
09:06 定时任务，高频但尚待解锁的场景
12:05 AI 竞争与外卖大战交汇：点外卖、找美食可能会被用得最多

-终端 AI 三方竞合：大模型、超级 App、手机厂商
14:14 当 AutoGLM 来到美团与用户之间，美团们怎么想？
16:12 Agent 调 App 的方式：GUI（图形界面）和 API 会长期并存
20:59 手机个人通用 Agent 和超级 App 内部 Agent（如美团 beam项目）的关系？
25:52 移动端尚没有 Web 端的 MCP 生态
28:44 手机厂商也在做 Agent，智谱与荣耀、三星的合作进展
32:53 华为、小米这样的公司有多种终端，它们推跨端 Agent 的优势？
33:55 智谱作为大模型公司自己做硬件？暂时没考虑

-近 30 个月的 AI Agent 探索
37:17 23 年 3 月 GPT-4 发布，刘潇的重心从预训练转向 Agent
42:39 23 年 4 月到 8 月，做出全球首个评估 Agent 能力的基准 Agent Bench
47:25 训练冷启动，人来构造数据
53:44 强化学习（RL）初现威力，离线强化学习已能大幅提升效果
01:01:22 o1、R1 的启发：做 RL 时，要用结果来 supervise 模型，而非用过程
01:04:02 RL 的两个关键：环境和激励
01:11:12 24 年 10月至今：工程上实现不占用电脑，以更大规模的在线强化学习提升纠错能力
01:15:16 激烈竞争的前提是，移动端 Agent 真的好用、成熟了
01:18:11 需要提升：模型能力、Infra、成本优化
01:28:56 产品马上发布：忐忑、期待和迭代计划

-连点成线
01:32:14 110 期，Agent 入口大战的预言回顾
01:34:54 我们聊过的那些强化学习

特别企划：
《晚点 LatePost》和 AI 产品点评网站「观猹」联合发起了一份 lite 调研问卷，只有 10+ 个选择题，填写仅需3-5分钟！我们想了解：AI 应用产品在“模型调用”方面的真实现状——到底在不同场景中，哪些模型最多人用？最受欢迎？
调研数据脱敏后会成文公开，分享给大家，所有原始数据将被严格保密。问题也不涉及产品名称等敏感信息。
欢迎听友中的各位 AI 产品开发者和创造者来填写！十分感谢！！😄填写链接：
www.wjx.cn

剪辑制作：Nick

本期主播：
小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

展开Show Notes

曼祺_MatchQ

2025.8.21

置顶

【特别企划】《晚点 LatePost》和 AI 产品点评网站「观猹」联合发起了一份轻型问卷，调研「大模型真实调用」。
问卷只有 10+ 个选择题，填完仅需 3-5 分钟！我们想了解：在多样的AI 应用和场景中，到底哪些模型被用得最多？最受欢迎？
问卷内容不涉及产品名称等信息，调研数据在脱敏后也会成文公开，分享给大家，所有原始数据将被严格保密。
欢迎听友中的 AI 产品开发者和创造者来填写！十分感谢！！😄
填写链接：https://www.wjx.cn/vm/eGkVD4a.aspx#

桃酥-

2025.8.21

试用了，体验很卡很差。你们还是专心做模型吧，GLM4.5，4.5V 进步很大

刘潇Shaw:谢谢试用🙏请问有什么具体的问题可以反馈给我们改进么，agent的能力目前的确也还在早期，我们希望能持续迭代以满足大家的期待

loop_emKu:测一下任务完成率，和完成时间，就知道产品是不是ready了。。。

共3条回复

Joes东

2025.8.21

洗澡、跑步、美食时间都是在enjoy my time，为什么还要想着去找agent做事呢，这产品思路还是kill your time，没必要。

刘潇Shaw:我们考虑的想法是，比如你在enjoy time的时候，你也会有想要获取一些服务，或者希望有AI能在旁边陪伴，或者主动给出一些可能能改善你体验的任务让他自己来完成的需求。之前的chatbot已经能初步支持一些陪伴或者交流的需求，但缺少操作或者获取服务的能力导致这种体验严重不连贯。目前的autoglm可能更关心操作本身，因为像对话性质的支持现有模型已经做得很好了，我相信这两种能力最终会融合进一个智能助理，到那个时候整个体验就比较完整，而且闭环了

SimonAKing:感觉用户故事举例很一般，但自动化的需求是存在的，虚拟空间有很大待挖掘的经济价值

r6AK

2025.8.21

这类通用的手机 Agent 现阶段的所有尝试感觉都是在为主机厂做嫁衣，等你们模式跑通了主机厂沿用思路搞一个集成到系统，Bingo 。基于某一个特定领域或场景的垂直 Agent 貌似更加适合三方开发团队。

刘潇Shaw:这是个好问题。不过就像此前大家认为chatbot相比起手机语音助手没有存在的意义，但最终chatbot也是一类重要的三方应用，主机厂商和ai厂商在业务逻辑和用户服务目标上的差异化其实还是很大的。我想，agent是一个很大的叙事，大家都有自己可以做的事情

SimonAKing:与终端设备厂商有竞争很正常，但不意味着不能竞争，因为市场足够大、需求足够长尾，并且云设备是能解放注意力的沿用一个思路是很显然的，厂商也不一定能做更好，上下文都是相同的，docker 中跑设备能有 root 权限

共5条回复

曼祺_MatchQ

2025.8.21

从市场规模和人群广度看，网页端 Agent 是湖，手机端 Agent 才是海。
现在，大模型公司、移动互联网巨头和手机公司，都想到这片海里寻宝。他们各自会有怎样的命运，他们之间怎么合纵连横？会是堪比 One Piece 的热闹大戏。

预告一下AutoGLM 2.0 上线的后续剧情：
-字节酝酿中的豆包手机（见《晚点》前天的独家报道，shownotes里有贴）
-王莆中亲自带队的美团生活助手（代号beam
-有资本观望的腾讯
……
-一定会出招的华米OV

诸位，我们一起继续前排吃（guan）瓜（cha）！

狗头老王

2025.8.21

更大概率是手机厂商的机会

刘潇Shaw:agent在我看来是一个很大的topic，无论是主机厂商、应用厂商还是模型侧、ai应用层，都会有很大的机会。目前主要是看要如何开始推动大家一起来完善基础设施

米糕_

2025.8.26

借晚点的评论区po一下产品使用体验：
作为skywork，genspark，扣子空间，deep research，flowith，manus（最近没充值了）等通用agent，以及部分垂直场景agent日常by场景by任务类型都会使用到的user而言，先抛使用结论：AutoGLM的整体使用体验，已经差到让人不敢相信这居然是智谱团队做出来的产品效果…

其他的体验类不说了，说两个很硬伤的Facts层面的大BUG！！！（因为是facts层面，所以有点难接受…）
1、任务一：给了往返航班日期和目的地请agent帮忙做国庆期间旅行攻略，结果，在by day的行程规划中，给我规划了9月31日的行程！！！
这种错误，我使用的所有AI产品至今还没遇到过！（而且这个问题已经通过web端提交反馈，几天了都没任何回应）
2、任务二：给了某个小红书账号名字，让agent帮忙对该小红书账号做一个账号分析！结果，agent输出信息时，愣是把该账号原本近10万的粉丝数，输出成很扎眼的3400多粉丝数… 过程中在虚拟机登陆了小红书账号也确实看到虚拟机找到了正确账号在浏览，居然最终对实时性信息还能有这种数量级上的差别！！！（甚至3400多这个数字跟账号粉丝数数字都没有什么直接关系）

这种output的交付，都不谈质量高低了，基本上事实层面都出这么大问题！感觉这样的产品完全不对不起我一个任务花心思好好写prompt的时间！！！所以，还是希望产品团队，能对用户时间和用户体验，存有一点点尊重！也希望产品团队能爱惜点brand羽毛（毕竟从chatGPT和Manus可以看出来，AI产品竞争中目前也已经出现了“心智占领”和“品牌红利”的商业化效应）

大胃的达威

2025.8.24

感觉产品的价值定位不太对。选餐厅，最核心和花时间的是在于根据信息来决策，不在于 UI 界面的操作。如果 agent 定位只是替代手去操作，这个价值点就很低，且场景很窄。而要帮助用户决策，关键在于了解用户的选择倾向，而有这些信息的还是美团这种大厂。

庄明浩

2025.8.21

12:43 哈哈哈前面确认打卡。这里确认双休

刘潇Shaw:😂

名叫拿破仑的猪

2025.8.21

想了解 AutoGLM 在面对长轨迹性能衰减方面有什么技术优化，因为就算每步 99% 成功率的FC 也会在若干步后错误快速累计。还有就是新的 Agent 场景下 AI Infra 面临什么新的挑战。

刘潇Shaw:感谢关注🥺这块其实就像人类一样，我们也不太可能在操作中一步错误都不犯，但犯错并不可怕，能否及时纠错并尝试其他路径，是我们人类成功率高的关键因素。所以，在我们的训练中，最主要是采用了端到端在线强化学习的方法来训练，如果只是一味SFT或者离线RL的话，模型很难学会像人类一样的自我纠错能力。

SimonAKing:想问下模型会考虑开源吗🥲