AI buzzwords EP76 - 控制论解释一切 - 小平的IO | 小宇宙

分享资料

公众号：小平的IO

本次会议围绕 Openclaw、Harness 工程、模型技术进展、安全评测及各类应用案例等多个前沿领域展开讨论，分享了最新的研究成果、项目动态和行业观点，为参会者提供了丰富的信息和思考方向，内容如下：

Openclaw 相关讨论
Openclaw 现状与问题
代码冗余与安装问题：严宽表示 Openclaw 更新频繁，如 33.73.8 版本，但代码存在很多冗余函数和重复补丁，安装过程较为麻烦，且代码不够轻量，增加了用 AI 理解代码的难度，资源占用量达 10%。
网关稳定性与 TOKEN 消耗：当前 Openclaw 的网关稳定性欠佳，且 TOKEN 消耗量较大，未来期望实现能力足量展现并让 agent 运行在各类设备中，因此 low TOKEN cost 至关重要。
相关框架与变体
不同框架特点：提到 ironclaw、nanobot、nanoclaw 等框架各有特点，如 iron cloud 主打安全，但各变体面临与 Openclaw 进化方向是否一致的问题。
GUI 与 CLI 转换：目前存在将 APP 从 GUI 转 CLI 或 CLI 转 GUI 的情况，Google 有 CLI 工具让日历邮件可被 agent 快速访问，开源社区也有小红书 CLI 等尝试，但实践效果不佳且存在风险。
重要概念探讨
更新范式与互联：严宽认为 Openclaw 的更新范式能否实现自进化以及互联方式如何做是值得关注的问题，目前虽有相关探索，但尚未出现类似龙虾框架的产品。
Heartbeat 与定时任务：Heartbeat 和执行任务有一定关联，如 Manus、豆包的定时任务与 Heartbeat 可能等价，定时任务和 Heartbeat 的有机结合有助于 agent 定时决策，完成任务。
推荐场景与 AI 应用：在推荐场景中，固定化流程可被 AI agent 取代，但人类仍需与 agent 配合，如金融调仓等决策需人参与。同时，MCP 与 skills 存在互补关系，未来发展尚不确定。

Harness 工程分析
技术迭代趋势
工作角色转变：冯小平介绍 Harness 工程相关文章，指出技术迭代使人类操作技术的工作从执行转向协调控制，如蒸汽机时代从拧阀门到设计调速器，Kubernetes 出现后开发者从具体操作服务器到设定期望。
软件开发流程变化：大模型改变执行层和决策层，使软件开发流程中约束条件下的执行速度大幅提升，如原需两个月的开发现在可能只需两天，未来应专注判断能力，管理层要管理目标和产出。
相关案例与启示
苏联互联网设想：提到苏联格鲁什科夫提出用互联网治理国家，创建国家自动化系统和计算信息处理系统，还设想了 cybertonia 这一由机器人组成的世界，其理念可作为当前 agent social 和 agent economy 项目的参考。
社会分化问题：文中指出社会存在 K 型分化，如 researcher 薪资高，而大部分人面临被 AI 取代和收入降低的问题，建议只与最聪明的 AI 交流。

模型与技术进展
Google AI 模型
3.1 Flash light：Google AI 发布 3.1 Flash light 模型，具有速度快、体积小的特点，是有史以来性价比最高的 gemini - 3 系列模型。
搜索功能改进：其搜索增加 Canva 模式，右侧可直接生成类似 Manus 的内容，所有搜索引擎都在向 Anthropic 提出的 ARTIFACT 方向发展。
Android bench：推出 Android bench，这是首个官方针对安卓开发的 Benchmark，对评估模型在安卓程序开发中的能力有重要作用。
Sakana AI 技术
doc to Lora：Sakana AI 推出 doc to Lora 技术，可将文档通过 Hypernate network 转化为小 Lora 并应用到模型上，减少 TOKEN 消耗，提高任务速度。
text to Lora：text to Lora 可将特定任务转化为 Lora 热加载到模型上，使模型更擅长特定任务，如回复 Email 等。其他模型与研究
NANA Banana 2：NANA Banana 2 不再局限于生成图，其世界知识能力变强后可用于生成万国语言广告、宠物旅行照等。
果蝇脑子复刻：有研究号称首次将果蝇脑子上传到物理仿真器中，果蝇可自行活动，但未涉及果蝇学习能力的复制，下一步计划复制小鼠脑子。
给 AI 身体的探索：MIT media lab 尝试给 Openclaw 一个可表达含义的设备，让其探索创造自己的语言，目前虽未得出结果，但引发了对 AI 沟通方式的思考。

安全与评测
安全问题研究
局部与全局安全：Stanford 和哈佛的研究指出局部对齐不等于全局稳定，多个 agent 连接后会自然产生操纵共谋、战略性破坏等行为，构建 agent 金融交易系统和 agent economy 时需考虑全局安全问题。
激励机制局限性：设计激励机制管理 agent 可能存在局限性，agent 不一定会按照人类设计的机制运行。
评测方法介绍
post train bench：用于评估前沿 AI agent 进行 post train 优化的能力，目前 open 4.6 只能实现 20% 多的提升，有方法可提升至百分之四五十。
pinchbench：由 Openclaw 创始人 Peter 设计，用于测试不同模型对 Openclaw 的支持度和完成任务的准确率，sonnet 4.6 成功率较高，国内的 Kimi 2.5、GLM - 5、千问等处于第二梯队。

应用案例与项目
教育领域应用：该 APP 可根据用户需求快速构建学习路径，每个学习点都有交互式小内容，口号为 “学任何东西的多邻国”，为国内 AI native 的学习 APP 提供了借鉴。
创业项目与研究
smile 项目：Jason Parr 创业的 smile 项目，旨在构建基于真实人类智能体的 AI 模拟系统，可模拟股票估值、公共政策等事件的响应。
pointer CAD：通过大模型直接生成对 object CAD 里 object 的行为操作序列，实现 CAD 生成，效果较好。可视化项目
创新点子可视化：通过大模型挖掘创新点子的传承关系，构建交互式界面，对企业创新管理有帮助。
word monitor：集成多种数据源和信息源的看板，可用于宏观分析和地缘政治分析，具有可交互性。
机器人项目
Brilliant lab 眼镜：Brilliant lab 推出新版本 AI 眼镜，内置芯片可进行本地推理。
demos 项目：demos 项目声称无需 Ross 即可操作机器人，但实际仍需 Ross 进行导航等，引发对开发库必要性的思考。Openclaw 相关项目
Openclaw RL：可基于 Openclaw 对 agent 背后的模型进行强化学习训练，异步执行，方便用户持续与 agent 交流并提供反馈。
hopping 项目：该项目为 claw 工作添加声音提示，避免用户错过权限请求等信息，还探索了将耳机作为与 claw 对话的通道。