
公众号:小平的IO
本次会议围绕 Openclaw、Harness 工程、模型技术进展、安全评测及各类应用案例等多个前沿领域展开讨论,分享了最新的研究成果、项目动态和行业观点,为参会者提供了丰富的信息和思考方向,内容如下:
- Openclaw 相关讨论
Openclaw 现状与问题
代码冗余与安装问题:严宽表示 Openclaw 更新频繁,如 33.73.8 版本,但代码存在很多冗余函数和重复补丁,安装过程较为麻烦,且代码不够轻量,增加了用 AI 理解代码的难度,资源占用量达 10%。
网关稳定性与 TOKEN 消耗:当前 Openclaw 的网关稳定性欠佳,且 TOKEN 消耗量较大,未来期望实现能力足量展现并让 agent 运行在各类设备中,因此 low TOKEN cost 至关重要。
相关框架与变体
不同框架特点:提到 ironclaw、nanobot、nanoclaw 等框架各有特点,如 iron cloud 主打安全,但各变体面临与 Openclaw 进化方向是否一致的问题。
GUI 与 CLI 转换:目前存在将 APP 从 GUI 转 CLI 或 CLI 转 GUI 的情况,Google 有 CLI 工具让日历邮件可被 agent 快速访问,开源社区也有小红书 CLI 等尝试,但实践效果不佳且存在风险。
重要概念探讨
更新范式与互联:严宽认为 Openclaw 的更新范式能否实现自进化以及互联方式如何做是值得关注的问题,目前虽有相关探索,但尚未出现类似龙虾框架的产品。
Heartbeat 与定时任务:Heartbeat 和执行任务有一定关联,如 Manus、豆包的定时任务与 Heartbeat 可能等价,定时任务和 Heartbeat 的有机结合有助于 agent 定时决策,完成任务。
推荐场景与 AI 应用:在推荐场景中,固定化流程可被 AI agent 取代,但人类仍需与 agent 配合,如金融调仓等决策需人参与。同时,MCP 与 skills 存在互补关系,未来发展尚不确定。 - Harness 工程分析
技术迭代趋势
工作角色转变:冯小平介绍 Harness 工程相关文章,指出技术迭代使人类操作技术的工作从执行转向协调控制,如蒸汽机时代从拧阀门到设计调速器,Kubernetes 出现后开发者从具体操作服务器到设定期望。
软件开发流程变化:大模型改变执行层和决策层,使软件开发流程中约束条件下的执行速度大幅提升,如原需两个月的开发现在可能只需两天,未来应专注判断能力,管理层要管理目标和产出。
相关案例与启示
苏联互联网设想:提到苏联格鲁什科夫提出用互联网治理国家,创建国家自动化系统和计算信息处理系统,还设想了 cybertonia 这一由机器人组成的世界,其理念可作为当前 agent social 和 agent economy 项目的参考。
社会分化问题:文中指出社会存在 K 型分化,如 researcher 薪资高,而大部分人面临被 AI 取代和收入降低的问题,建议只与最聪明的 AI 交流。 - 模型与技术进展
Google AI 模型
3.1 Flash light:Google AI 发布 3.1 Flash light 模型,具有速度快、体积小的特点,是有史以来性价比最高的 gemini - 3 系列模型。
搜索功能改进:其搜索增加 Canva 模式,右侧可直接生成类似 Manus 的内容,所有搜索引擎都在向 Anthropic 提出的 ARTIFACT 方向发展。
Android bench:推出 Android bench,这是首个官方针对安卓开发的 Benchmark,对评估模型在安卓程序开发中的能力有重要作用。
Sakana AI 技术
doc to Lora:Sakana AI 推出 doc to Lora 技术,可将文档通过 Hypernate network 转化为小 Lora 并应用到模型上,减少 TOKEN 消耗,提高任务速度。
text to Lora:text to Lora 可将特定任务转化为 Lora 热加载到模型上,使模型更擅长特定任务,如回复 Email 等。其他模型与研究
NANA Banana 2:NANA Banana 2 不再局限于生成图,其世界知识能力变强后可用于生成万国语言广告、宠物旅行照等。
果蝇脑子复刻:有研究号称首次将果蝇脑子上传到物理仿真器中,果蝇可自行活动,但未涉及果蝇学习能力的复制,下一步计划复制小鼠脑子。
给 AI 身体的探索:MIT media lab 尝试给 Openclaw 一个可表达含义的设备,让其探索创造自己的语言,目前虽未得出结果,但引发了对 AI 沟通方式的思考。 - 安全与评测
安全问题研究
局部与全局安全:Stanford 和哈佛的研究指出局部对齐不等于全局稳定,多个 agent 连接后会自然产生操纵共谋、战略性破坏等行为,构建 agent 金融交易系统和 agent economy 时需考虑全局安全问题。
激励机制局限性:设计激励机制管理 agent 可能存在局限性,agent 不一定会按照人类设计的机制运行。
评测方法介绍
post train bench:用于评估前沿 AI agent 进行 post train 优化的能力,目前 open 4.6 只能实现 20% 多的提升,有方法可提升至百分之四五十。
pinchbench:由 Openclaw 创始人 Peter 设计,用于测试不同模型对 Openclaw 的支持度和完成任务的准确率,sonnet 4.6 成功率较高,国内的 Kimi 2.5、GLM - 5、千问等处于第二梯队。 - 应用案例与项目
教育领域应用:该 APP 可根据用户需求快速构建学习路径,每个学习点都有交互式小内容,口号为 “学任何东西的多邻国”,为国内 AI native 的学习 APP 提供了借鉴。
创业项目与研究
smile 项目:Jason Parr 创业的 smile 项目,旨在构建基于真实人类智能体的 AI 模拟系统,可模拟股票估值、公共政策等事件的响应。
pointer CAD:通过大模型直接生成对 object CAD 里 object 的行为操作序列,实现 CAD 生成,效果较好。可视化项目
创新点子可视化:通过大模型挖掘创新点子的传承关系,构建交互式界面,对企业创新管理有帮助。
word monitor:集成多种数据源和信息源的看板,可用于宏观分析和地缘政治分析,具有可交互性。
机器人项目
Brilliant lab 眼镜:Brilliant lab 推出新版本 AI 眼镜,内置芯片可进行本地推理。
demos 项目:demos 项目声称无需 Ross 即可操作机器人,但实际仍需 Ross 进行导航等,引发对开发库必要性的思考。Openclaw 相关项目
Openclaw RL:可基于 Openclaw 对 agent 背后的模型进行强化学习训练,异步执行,方便用户持续与 agent 交流并提供反馈。
hopping 项目:该项目为 claw 工作添加声音提示,避免用户错过权限请求等信息,还探索了将耳机作为与 claw 对话的通道。

