小平的IO | 小宇宙 - 听播客，上小宇宙

3已订阅

小平的IO

冯小平

单集更新

节目详情

AI Buzzwords EP.83 《劳动节悖论:当生产者成为生产资料》
AI Buzzwords EP.83 《劳动节悖论:当生产者成为生产资料》 ——写在AI算力成本超过人工薪资的这一年在五一劳动节分享上，快速回顾了近期AI领域动态。包括DeepSeekV4等大模型进展，科技公司裁员，苹果换帅发力端侧模型，大模型定价与成本问题，Tokenmaxxing 消耗浪费现象，以及 AI 对就业、劳动价值等带来的影响与思考。
50分钟 · 17天前
5
0
AI Buzzwords EP.82 Claude Design：又一个行业被MD化
本次会议首先是实习生焦浩洋分享实习成果，随后围绕 AI 领域的工作研究、模型发展、设计变革、算力数据、安全问题等多个方面展开讨论，介绍了行业最新动态和研究成果，内容如下： * 实习生成果分享 * 实习经历与收获 * 项目参与：焦浩洋目前大三，曾参与开源项目和小智 AI 开发，今年年初加入 CIT 后，参与龙虾节活动，储备硬件并为龙虾搭建硬件身体，添加底座、机械臂，实现智能家居与 Openclaw 的连接。 * 技术尝试：尝试将对话助手与 Openclaw 设备连接，开发手机直连 Openclaw 的软件，采用 Web coding 形式，编程交给 AI 实现。 * 开源项目探索：参与开源项目，将 Claude code 应用于 ESP 32 板子，通过蓝牙传输工作状态，方便展示任务进度和宠物状态。该板子可在淘宝购买，价格约 100 - 110 元，具有较强的探索性。 * 实习总结与展望：焦浩洋在 CIT 实习约三个月，取得了一定成果。冯小平对其表示祝福，并欢迎有兴趣实习的人员提交简历。 * AI 时代工作研究 * 微软研究报告 * 工作变化：冯小平介绍微软的 “the new feature of work” 报告，指出 AI 不仅提高办公效率，更改变人们的协作方式，实现远程办公。 * 协作伙伴：将 AI 作为协作伙伴能获得更大收益，而非仅作为 copilot 使用。 * 收益不均：AI 带来的收益分布不均，受 TOKEN 成本、工具访问权限等因素影响。 * 人类价值：人类知识更为重要，工作将从执行转向引导、评判 agent 工作，专家的价值更加凸显。 * 工作转变思考：人们应思考自身工作中创造、决策、协作、学习等方面的占比，减少例行性、重复性工作。 * Claude 系统提示词分析 * 提示词变化 * 版本差异：Claude 从 4.6 到 4.7 版本，系统提示词有明显变化，如从开发者平台变为 Claude platform，突出 Anthropic 品牌。 * 功能增强：4.7 版本增加了 Powerpoint cloud 等办公功能，表明其在办公领域的能力提升。 * 安全升级：大幅增加儿童保护部分，明确拒绝请求后的处理方式，以及对敏感内容的限制。 * 响应优化：要求 Claude 响应聚焦简洁，避免过长回答给用户带来压力，增加饮食失调相关内容，对复杂问题提供细致入微的答案。 * 提示词研究方法：可通过官方代码提交的 DIFF 查看提示词变化，分析模型能力的映射体现。 * 设计领域变革 * Claude design 冲击 * 对标竞品：Claude design 对标 Figma 等设计工具，对其造成较大冲击。Figma 发展初期虽采用先进技术，但用户中设计师仅占 33%，且使用老模型，在面对以 coding 著称的 Claude design 攻击时较为脆弱。 * 设计系统构建：Claude design 提供设计系统构建工具，可根据公司需求生成设计规范，包括字体、颜色、组件等详细内容。使用时建议连接 GitHub，以获取更多现有设计内容。 * 设计系统理念 * 传统设计系统：设计系统包括 foundation、组件和模式三个维度，foundation 涵盖设计理念、核心指南等，如苹果、Google、微软的设计指南，以及阿里的 Ant design 等。 * AI 时代设计：Google 的 Stitch 产品提出 design.md，包含给 AI 看的 yaml 和给人看的 Markdown 正文，可通过 agent 生成，是一个开源项目，为设计 agent 提供独立工作空间。 * 算力与数据问题 * 算力现状 * 规模与紧缺：目前算力建设规模巨大，被称为 Hyper scaler，但算力仍然紧缺，数据中心的 CAPX 支出远超历史上的马歇尔计划、曼哈顿计划等。 * 晶圆 GPU 发展：sarahbras 公司的晶圆规模 GPU 即将上市，其将多个芯片晶圆拼接，提高片间带宽，但存在板上 RAM 稀缺问题，通过多层拼接实现 RAM 提升。 * 数据质量瓶颈 * 数据压缩率低：卡神指出，当前模型训练中每个 TOKEN 产生的有价值比特信息量仅为 0.07 比特，模型训练记忆模糊，原因是训练数据质量差。 * 模型训练建议：可将模型训练分为两部分，核心认知部分可能只需 1B 大小，如 4O 大小的模型性能已超过 1.8 万亿参数的 GPT4。 * 文言 skills 项目：罗老师推荐的文言 skills 项目，尝试用文言文输出内容，提高信息密度，减少 TOKEN 使用量，且不影响最终结果。 * 模型发展动态 * open m - Misos 项目：该项目根据主流大模型发展研究，整合 RDT、MLVA、GQA、Moe 等先进技术，构建可能的下一代模型架构，体现了新一代模型架构设计的快速发展。 * GPT 5.5 发布 * 核心特点：GPT 5.5 强调 TOKEN 花费与智力、速度的平衡，在 Benchmark 测试中有较好表现，编码能力持续提升，如太空任务模拟器、地震追踪器等 Demo 展示。 * 安全评估：模型在生物安全、化学安全、数据安全、网络安全等方面评分较高，Openai 有准备度框架评估模型安全性。 * Gemini Robotics R E R 1.6 模型 * 能力增强：该模型增强了指向、计数和成功检测能力，在工业场景中可实现基于空间推理的指向任务、判断任务是否完成以及准确读取仪表读数。 * 应用限制：模型未开源，需通过 AI studio 测试，机器人厂商若合作需与厂商处理好数据部分。 * 安全问题探讨 * 人在回路策略：美国军方采用 AI 模型辅助战争，但人在回路策略在战争阶段不可行，因为人在关键时刻缺乏足够信息做出决策。 * 漏洞挖掘研究 * 模型复现：有人研究用非最强模型（如 PPD 5.4、open 4.6）复现 Misus 挖掘软件漏洞，结论基本可行，主流可访问模型用于漏洞挖掘效果相当。 * Harness 策略：安全研究中，选择合适的 Harness 框架很重要，open code 可能是更开放全面的框架，SWE agent 可作为参考。 * 路由服务安全 * 数据泄露风险：第三方 LLM 路由服务存在数据安全问题，如偷数据、插入恶意代码、偷 TOKEN 和 key 等，使用时需谨慎，避免在免费中继中透露敏感信息。 * 行业趋势：国内开始重视网络安全研究，Saas 公司默认收集数据，数据收集成为不可避免的趋势。 * Claw 4.7 变化：Claw 4.7 的 tokenizer 比 4.6 版本高出近一半，TOKEN 消耗量显著增加。 * cuda agent 上下文：cuda agent 需要上下文层，在自然语言描述和 SQL 查询之间添加语义层，综合业务和数据层面的认知，以解决业务 context 与 SQL context 不匹配的问题。 * 后续工作展望 * 内容分享讨论：冯小平表示每期分享内容较多，难以在一小时内全面深入分享，希望与大家讨论如何更好地呈现内容，也欢迎对分享感兴趣的同学参与。 * 创业机会探索：鼓励大家关注 AI 时代的创业机会，如打造类似 WordPress 的平台，以及拥有 context layer 的创业项目。
49分钟 · 21天前
1
0
AI Buzzwords EP.80 黑暗森林2.0：从“隐藏”到“攻击性防御”
# TLDR 创意编程与生成式艺术分享：罗老师介绍了创意编程（Creative Coding）的概念，强调以代码为创作媒介，列举了Jim Munk、Rafik Anadol等艺术家案例。重点讲解了浏览器作为创作平台的优势，推荐了Canvas 2D、P5.js（Processing的Web版本）、Three.js（3D渲染）、Dr Drei（React+Three.js生态）等工具，并提到MediaPipe（手势交互）、Transformer.js（前端模型推理）等技术，以及Html in Canvas的新发展。还分享了参数化设计、硬件交互（如ESP32）等实践思路，建议通过开放式提示词（Open-ended Prompts）激发AI创意，先快速验证视觉效果再迁移平台。行业动态与AI进展：随后分享了近期行业热点，包括Anthropic的Model Diff工具及中美模型特征差异（中国模型的“CCP alignment”与美国模型的“American Exceptionalism”）、员工技能蒸馏与反蒸馏的讨论、HUZ发布的TOP100GEN AI应用排名（CapCut月活7亿）、AI算力分布（Google居首，微软次之，依赖TPU与Nvidia GPU）、苹果生态推理优化（MLX框架）、Mistral模型的网络攻击能力、DeepSeek模型进展、电磁学领域的AI模型（正向与反向仿真）、鲁玛的Uni One视觉推理模型等。此外，还涉及安全问题（如Mercury数据泄露）、智谱5.1模型的长程任务能力、Meta的未来工作模拟实验、AI在金融分析（Marlin Beta）和科研（AI Scientist）中的应用，以及Agent相关的协议（X402）、产品（Claude Managed Agent、Cursor 3）和伦理讨论（认知黑暗森林）。 # Content 本次会议围绕创意编程、模型分析、未来工作模式、产品技术发展及安全问题等多个主题展开交流，分享了最新的行业动态和研究成果，探讨了相关领域的发展趋势和应对策略，内容如下： * 创意编程与生成式艺术分享核心概念与大师介绍创意编程定义：马浩程提出创意编程（Creative Coding）是把代码当作表现形式进行创作和表达的领域，存在已久。在 Web Coding 出现前就有大师用代码创作，如 Jim Munk 用代码为电影生成设计，Rafik Anadol 开创裸眼 3D 风格设计，用代码实时讲故事。大师作品展示：Jim Munk 的作品可在 gmonk.com 查看，其中包含影视作品里的界面等；Rafik Anadol 的作品 ARCHIVE dream 用代码将历史文物可视化，是八年前的作品。创作媒介与工具介绍浏览器优势：马浩程表示浏览器是适合创意编程、AI 和生成式艺术的媒介和平台，具有实时渲染等特性。如为线下品牌做的沉浸式墙、实时座舱模拟等都可在浏览器中运行。二维渲染工具：介绍了 canvas2D，可在浏览器中绘图；P5.js 由 Processing 演变而来，Processing 是让艺术生学会写代码的工具，P5.js 能让 AI 写出具有创意编程味道的代码，相关创作可在 openProcessing.org 查看。三维渲染工具：three.js 在 Flash 时代就存在，用于代替 Flash 的 3D 渲染，多数 Web coding 作品用其制作，可访问 threejs.org 查看例子。Dr Drei 是在 R3F 生态中让作品变好看的库，用它和 three.js 结合能写出有高级感的代码。互动工具：推荐用摄像头进行互动，介绍了 Google 的 media pipe 框架，支持体感和手势模型，可在浏览器中运行；Transformer.js 可在前端调用 Transformer 模型，实现离线推理。创作思考与实践方法思考方法：创作时要从硬件设备的传感器出发，探索 UIUX 的变化和互动方式，如利用摄像头、加速度计、指南针等，可应用于数据可视化等领域。调试方法：创意编程过程是视觉调试过程，可使用 tweak paint、dat.GUI 等工具，让大语言模型做出可调试的体验，方便调整视觉效果。创意提示词：提出开放式提示词（open ended prompts）的概念，在写提示词时要更有创意，可像写诗一样描述，同时加入 pipeline 限制，让大语言模型产生更有创意的内容。代码翻译实践：以 ASCII art 为例，展示了从浏览器代码到物理世界代码的翻译过程，建议先看到视觉效果，再进行代码翻译。 * 模型分析与行业动态 Anthropic 模型研究 Model Diff 研究：冯小平介绍 Anthropic 开展模型差异分析（model diff），通过分析模型向量值来研究两个异构模型的差别。发现中国模型有 CCP alignment 特征，美国模型有美国例外论特征，且该研究有负面引导倾向。模型合并理论：提到以前有 model merge 的概念，即把两个擅长不同领域的模型向量值相加，使新模型在两方面都更出色。行业应用排名与评测 TOP100GEN AI 排名：HUZ 每季度发布的 TOP100GEN AI 排名显示，部分应用排名普遍变高，但程序员常用的工具如 Claude code 未在排名中，说明该评测可能在新的 AI native 用户中过时。剪映数据：剪映移动端月活达 7 亿，排名第二，显示出其在视频工具领域的强大影响力。算力分布与苹果生态全球算力分布：Google 掌握世界上最大的算力，约为第二名微软的 1.5 倍，Google 的 TPU 占 2/3 左右，微软主要是 n 卡和部分 AMD，Meta 主要是 n 卡且 AMD 算力更多，Amazon 有自己的 GPU 且部分为英伟达。苹果生态推理能力：苹果生态下的设备如 MacBook、Mac mini、Mac studio 以及手机、iPad 等在推理能力上有优化，Gemma 4 等模型在苹果设备上能有不错的推理表现，且苹果生态下的 MLX 类似于 CUDA 生态，逐渐成熟。 * 模型新进展与应用案例电磁学模型创新：冯小平介绍了一个电磁学模型项目，做了正向和反向两个模型。正向模型是从电路到电磁行为特征的仿真，反向模型则是根据想要的电磁行为特征生成可能符合的电路 geometry，改变了工程师的做事方式，可能是 AI for science 领域的新范式。鲁玛 Uni one 模型：鲁玛的 Uni one 是有很强推理能力的视觉生成模型，能根据输入的图片如金门大桥图，经过推理生成相关的信息图，实现图与文字的交叉编码，既有推理能力又有视觉生成能力。模型整合趋势案例 Harness 工程应用：有人用带有视觉能力的大语言模型牵着生成模型反复对抗，提升小模型能力，使其接近 Banana 一半的水平，说明 Harness 工程可实现多模态，模型整合是未来趋势。推理生成模型整合：通过一个根据故事描述生成一系列图像的例子，展示了模型在复杂逻辑下的推理和生成能力，说明推理模型和生成模型的整合是必然趋势。 * 未来工作模式探讨智谱 5.1 模型长程任务长程任务定义：冯小平解释智谱 5.1 模型主打的长程任务，不是让 agent 持续工作，而是能完成人类持续工作一定时长的任务，如在 medium benchmark 里，50% 成功率下能完成人类 10 个小时的活，80% 成功率下能完成 1 个小时的活。任务难度可视化：展示了一个任务难度可视化图表，每个点代表一种任务，随着时间推移，agent 能完成更难的任务，但仍有很多深色点代表的难任务待解决。未来工作模拟研究工作方式变化：假设拥有能以 50% 准确率完成人类 200 小时工作的 AI，人们会尝试在 TOKEN 廉价的情况下将工作横向扩展，探索工作的极限。未来工作方式将分为分钟级、小时级、周级的反馈循环，人类造成的瓶颈可能使工作总时间变长。工作建议：虽然研究未给出实际缩短瓶颈的建议，但为探索下一代工作方式提供了参考，同时指出 junior 同学在驾驭 agent 实现商业价值方面存在差距。 * 产品与技术发展动态 AI 科学家与商业化产品 AI scientist 项目：Sakana 的 AI scientist 项目去年发出 ICLR 级别的论文，最近增加了 agentic tree search 能力，让模型参与研究方向的选择。 Marlin Beta 产品：Sakana 推出的首款商业化产品 Marlin Beta，用于金融分析和研报分析，能根据话题生成行业研究报告。上下文管理与主动 agent mine context 项目衍生：mine context 项目创始人之一创业推出 air Jelly，通过记录用户桌面操作数据，将其转换为任务抽象，实现半主动的 agent 功能，主动猜测用户可能要做的事。公司协同研究：everyday 公司研究人跟 agent 在公司协同工作的表现，发现员工对 agent 的接受程度差异大，探索下一代组织内的配合方式。大模型厂商与创业方向：冯小平指出大模型厂商如 Anthropic 会做 agent、memory context tool 管理、tool search 等，创业公司要么往上走接近业务价值，要么往下走等待被大模型厂商收购。 X402 协议与 WEB3：X402 是 agent payment 协议，最初由 Coinbase 提出，后被纳入 Linux 基金会接管，可看作下一代 Infra 的标准组件，但不推荐大部分同学参与 WEB3。产品 CLI 化与技能添加产品 CLI 化趋势：所有产品都在向 CLI 化发展，但产品面向 agent 构建时，需添加 skills 以避免 agent 趟坑，如飞书 CLI 在权限设置上存在问题，而 Gemini 的 API 除文档外还提供 skills 指导。 Cursor 产品优势：cursor 产品在管理各种 agent 的形态上比 Claude 做得更好，能清晰展示不同 project 下 agent 的工作情况。 LLM wiki 与知识管理 LLM wiki 概念：capacity 推出的 LLM wiki 用于企业内知识管理，可将会议记录等内容整合到知识体系中，避免现用现查 RAG 系统效率低下的问题。 QMD 项目：QMD 项目可对 Markdown 文件进行索引，方便高效查询本地知识。 * 安全问题与思考供应链攻击新方式：Hsu 文章指出，现在有人利用 AI 抓取热门 AI 项目，在用户未注册相关包名时制作包推到 GitHub 上，诱导用户安装，实现供应链攻击自动化，且模型产生的幻觉可能导致用户安装含后门的包。认知黑暗森林思考：冯小平提出认知黑暗森林的概念，认为在 LLM 时代，人们分享想法可能被 agent 捕捉并利用，引发对是否分享以及如何分享的思考。
56分钟 · 1 个月前
3
0
AI Buzzwords EP.79 下一代模型的商业化能力远超预期？
本次分享围绕网络安全、AI 公司招聘与策略、技术进展、模型训练、AI 安全、企业任务管理等多个领域展开讨论，分享了行业最新动态和研究成果，为参会者提供了全面的行业信息。内容如下： * 网络安全形势犯罪增长情况：AI 网络犯罪呈激增态势，年增长率达 1.5%，从 2025 年 11 月到 12 月期间讨论增加 1500 倍。这表明黑客发现了全栈自动攻击方法，导致犯罪活动增多。软件供应链攻击：近期发生多起软件供应链攻击事件，如 Axio 库被攻击。该库是广泛使用的 HTTP 访问库，黑客可利用其创建诱饵、负载等，企业需检查程序依赖中 Axio 库版本在 1.141 等范围内的情况，及时整改。防御挑战与对策：去年漏洞公开后多在一天内被利用，企业安全防护压力巨大，需依靠 AI 进行防御。 AI 网络犯罪激增攻击手段转变：攻击手段从传统的社会工程学（如冒充老板骗财务密码）转变为获取人类信任和身份，这对安全领域既是机遇也是挑战。 * AI 公司招聘与策略AI 成功工程师等岗位：AI 成功工程师面向企业内部 AI 转型，合作伙伴 AI 部署工程师、AI 解决方案架构师等岗位需求增加，智谱等公司也有相关需求。强化学习岗位：强化学习相关岗位是亮点，包括强化学习算法和强化学习环境构建岗位，如全局强化学习环境工程师。 OpenAI 与 DeepMind 布局硬件：OpenAI 有 21 个定制芯片相关开放岗位，DeepMind 与 xreal 合作做眼镜，两家都在招聘机器人相关岗位，可能在研发有灵巧手的人形机器人。 Anthropic 依赖外部合作：Anthropic 几乎没有硬件相关岗位，通过专门岗位与外部合作伙伴共同监督数据中心设计和建设，以获取稳定算力支持。招聘比例变化：OpenAI、Anthropic 等 AI 公司销售岗招聘猛增，OpenAI 从 18%涨到 28%，Anthropic 从 17%到 31%，尤其集中在帮助客户将 AI 应用到企业的技术岗位，如前向部署工程师。背后策略考量：这意味着这些公司可能发现下一代模型有巨大商业机会，先加强销售体系建设，再推出重磅模型以提高市场占有率。销售岗位招聘猛增不同公司硬件策略差异新兴岗位需求 * 技术进展与应用量化模型：有公司将模型量化到 1 比特，可在低算力边缘设备上运行，如 PRISM 公司的 1B 模型性能不错。其他模型：Holo3 模型在 CUA 类项目中表现出色；微软的 five 4 模型在科研类场景效果较好；北大的 Echo 模型用于炒股预测；Google 的 Times FM 模型通过添加 skills 可用于时序数据预测；Gemini3.1 Flash live 多模态模型可语音输入，能现生成应用。 Tellus 芯片：Tellus 将大模型硬编码到芯片上，功耗低、效率高。可运行千问 27B 模型，速度达 10000 TPS，甚至能达到 15000 - 16000 TPS，成本仅几百刀。数据存储新方式：将数据刻在玻璃里，玻璃具有防水、防火、防尘等特点，可保存一万年。该技术克服了快速大规模读数据的难点，通过显微镜和相机读取数据。 NVIDIA Dynamo：NVIDIA Dynamo 到 1.0 版本，集成推理引擎和 KV CACHE 优化技术，能加快推理速度，已渗透到字节、美团、腾讯云等大企业，是算力中心全栈解决方案提供者。模型进展 * 模型训练成本不同公司成本占比：OpenAI、Minimax 和智谱 AI 最后一轮训练算力成本占研发支出比例不同，OpenAI 不到 10%，Minimax 接近 20%多，智谱占百分之十几。成本占比与公司地位：研究认为离前沿较远的公司最后一轮训练成本占比应更大，Minimax 符合预期，智谱不完全符合追赶假说。 * AI 安全与可解释性评测 AI 操纵人类方法：有研究提出评测 AI 对人类操纵的方法，将操纵分为有意说服和有害操纵（PUA），AI 在健康相关话题操纵效果最差。供应链攻击风险：Axio 库被朝鲜黑客攻击，包含远程访问木马，企业需检查程序依赖版本。 * 企业任务管理多程任务概念：提出 Multi - horizon task（MHTES）多程任务概念，更贴近企业实际场景，考验不同 agent 间任务转手和多任务负载下的任务完成能力。传统 agent 问题：传统 agent 在多任务情况下准确率急降，Cropgen 引入多层规划等方法。微软 Cropgen 微软 UFO 项目：旨在解决任务在不同设备间分配问题，使任务能在合适平台环境下运行，目前该领域设计较少。 * Claude code 分析源码泄露影响：Claude code 源码泄露后被放到 IPFS 上，难以撤销，且向操作系统层面演进，能分析用户情绪和使用习惯。数据遥测问题：Claude code 遥测范围超过 copilot 定义，大量用户使用数据被传到服务器，企业需关注员工使用情况。开发特点：CC 未用自家 SDK，直接调 API，内部工程师可根据统计数据指引系统开发功能方向。 * 开源项目合规：该项目可帮助企业合规使用开源项目，避免版权问题，通过模型重写开源代码，利好信创。 * 后续工作计划下周分享：下周将分享一些有意思的小 AI 实验室，如 Adenlab 等，以及相关应用案例。建议尝试：建议在工作中使用 CC 跑 Autoresearch 优化机器学习算法；关注利用 AI 做彭博终端的开源项目；考虑出海电商纯 AI 化的可能性。
49分钟 · 1 个月前
0
0
AI Buzzwords (78) 中庸之道已到尽头
Highlight 「AI短剧的爆发，对应的可能是我们会迎来一种所谓的想象力经济的到来」「未来软件只有两条路可走，一是加快增长，创造出新的产品且增长速度超过10个点；二是多挣钱，把公司的净利润率提高到40%以上。否则在12 - 18个月内公司可能会面临困境」分享了 AI 行业的最新动态、前沿项目、工具应用以及行业面临的挑战与应对策略，内容如下： * AI 行业趋势 * 两条发展道路：扎克伯格提出未来软件公司只有两条路可走，一是创造新产品，使增长速度超过 10%；二是提高公司净利润率到 40%以上（包括股权激励部分）。如果在 12 - 18 个月内不选择这两条路，公司可能面临困境。 * 具体实施建议：对于创造新产品的路径，建议找到公司内部的百倍工程师组成五人小团队，关注高价值工作流，构建动态上下文，将 50%的研发资源投入新产品。同时，要精简 VP 团队，让优秀产品经理多接触客户，核心工程师留在总部迭代核心架构。对于提高利润率的路径，建议大幅提高每个工程师的 TOKEN 预算，为大规模裁员做好准备。 * 评估框架与维度：黄仁勋提出已到 AGI 阶段，但冯小平认为需要对 AGI 进行评测。他介绍了 deep mind 17 号发布的文章，引入了 AGI 的认知框架（cognitive framework），将通用智能分为感知（perception）、生成、注意力（attention）、学习、推理（reasoning）、元认知（Meta cognition）、执行任务、解决问题、社会认知等维度。 * Kaggle 比赛：Kaggle 举办了 “measuring progress towards AGI” 比赛，奖金共 10 万刀，每个 track 有 2 万刀。比赛旨在让参赛者创建评估学习能力、元认知、注意力、执行能力和社会认知等维度的 Benchmark，利用 Kagle 1 月份上线的社区驱动评估项目。 * 技术发展与政策治理脱节：他还提到，经济日报文章讨论了 AI 短剧是否能替代真人短剧，指出过度追求效率可能导致品质降低。同时，软件版权登记制度要求明确未使用 AI 开发编写的代码，但实际上新的 AI 厂商大多已使用 AI 写代码，这表明技术发展远超政策治理的想象。 * 漫改剧消耗增长：冯小平指出，字节漫改剧消耗在近一两天内超过真人短剧，日均消耗无论是按分钟计算还是费用计算都有显著提升。这一现象反映出漫剧作为特定 AI 生成剧的崛起，也预示着利用 AIGC 工具释放人们想象力的领域将快速发展，如生成小说、游戏、剧情等，可能迎来想象力经济。 * 想象力经济到来 * AGI 评估 * 软件公司发展路径 * 前沿项目与研究 * 项目启动与规则：本周 RKGI3 正式启动，界面有给人类和 AI 的两个入口。游戏类似游戏机，玩家控制上下左右移动，通过让左下角图案变成最终目标图案并走到终点获胜，但游戏未明确过关规则，玩家需自行探索。 * 模型表现：目前人类最高得分 100 分，步数 546 步，最牛的模型 GPT 5.4 得 0 分，跑了 100 多步。不过已有玩家刷到 20 多分，该项目对模型提出了挑战。 * 部门成立与研究方向：Lequand 的世界模型 2.1 版本持续迭代，同时成立了 Anthropic Institute，专门研究人工智能对人类社会的挑战。该组织分为三个团队，分别研究 AI 对网络安全、社会（包括经济、工作等）和法律体系的影响。 * 国内借鉴意义：冯小平认为国内模型公司和政府单位应设立相应部门，开展相关研究。 * 推理过程分析：研究发现视频生成模型的推理过程并非一帧一帧串联，而是采用一步一步的链（chain of steps），是并发或平行探索的过程。例如，生成机器人走迷宫、放置绿植、玩 TIC TAC TOE 游戏等视频时，模型会进行普适探索，最后生成确定性结果。 * 模型推理能力：通过对视频生成模型的深度分析，发现其具有较强的推理能力，且推理过程有轨迹可循，可归类于模型可解释性研究。 * AI scientist 与辛卡纳：AI scientist 和辛卡纳（Xin Kanna）致力于通过模型驱动的 agent 探索科研成果，辛卡纳采用基于进化算法的过程实现自我迭代。但以往主要关注算法 solution 的迭代，而寻找 solution 的方法变化不大。 * Evolvex 与 Hyper agent：Evolvex 和 Hyper agent 不仅迭代 solution，还迭代生成策略，实现算法探索方法的自我进化。AI scientist 相关研究登上 nature 主刊，表明 AI 自我研究有很大突破，建议在校同学关注该方向。 * 项目介绍：冯小平推荐大家观看特斯拉 Terrafab 的视频，视频时长约 20 分钟，内容有流浪地球的格局。该项目与马斯克的产业相关，提到了卡达谢夫指数，马斯克集团旨在帮助人类在该指数上爬升。 * 发展规划：项目计划开发 AI 5、AI 6 芯片用于端侧模型，D3 芯片用于太空，具备防辐射和散热能力。还将通过 Spacex 火箭发射 10 千瓦级别的算力中心，最终实现 1 T 瓦级别的算力，这相当于美国当前发电量的两倍。目前特斯拉招聘网站上有 Terrafab 的招聘信息，包括流程、晶圆、工艺和项目管理等岗位。 * 特斯拉 Terrafab * AI 自我进化研究 * 视频生成模型 * Anthropic Institute * RKGI3 * 工具与技术应用 * 功能与优势：Openai 和 Claude 推出了 tool search 接口，开发者将完整的工具提供给模型，并设置部分工具为延迟加载，可节省大量 TOKEN。当需要使用工具时，tool search 会帮助选择适合的工具。 * 行业影响：这一功能可能会对传统的工具管理行业造成冲击，如 Compass io 这类公司的业务可能会受到影响，提醒开发者不要与大模型厂商对着干。 * 产品功能：Blueprint 是一个生成硬件产品的 agent，用户输入需求后，它会询问相关问题，如传感器类型、通信链路等，然后生成 BOM（物料清单）、渲染图、连接方式和 3D Mesh，并提供构建指南。 * 成本优势：有用户使用 Blueprint 构建的硬件比 Openhome 便宜 10 倍，展示了其在 Web 硬件领域的应用潜力，结合之前的生成 PCB 项目，深圳在 Web 硬件方面有很大的想象空间。 * 逆向结果：阿里的悟空被逆向，逆向结果显示了系统架构、开发语言环境、代码结构以及对应的可能功能，还能生成总的架构图。分析认为其大概率不是用 Openclaw 修改的，因为采用了 rust 语言编写。 * 行业影响：这表明软件秘密越来越难保守，企业业务壁垒不应仅依赖 APP 或技能，需要寻找新的竞争优势。 * 功能特点：open Oak 原名 open Granola，是一个系统监控的开源项目。开启该应用后，它会收集系统声音和麦克风声音，实时转成文字，并通过本地文件查找与当前讨论内容相关的文本，呈现在界面上。 * 应用场景：可用于面试作弊或文案辅助，在销售等过程中能快速获取相关信息。 * open Oak * 悟空逆向 * Blueprint * tool search 接口 * 其他研究与项目 * Openhome 项目：Openhome 用树莓派驱动喇叭和麦克风，用户可根据需求开发应用。例如，当监测到婴儿啼哭时，使用 Google 的 Lyria 3 模型生成 30 秒摇篮曲进行安抚。该项目展示了通用硬件加 agent 在完成应用场景开发方面的潜力。 * Flash kmeans 算法：Flash kmeans 算法将 kmeans 聚类算法在 GPU 上的加速提高了约 30 倍，是软硬件协同设计的典型案例。其方法可应用于其他类似算法，如 charge Boost，通过减少存储级别的冲突，提高了算法效率。 * Chroma 模型：Chroma 向量数据库开发的 context one 模型，将 agentic retriever 部分模型化，提高了使用该模型进行 agentic retriever 的效率和准确率，适合做 RAG 类型系统交付的同学考虑。 * Tribe VR 模型：Meta 开发的 Tribe VR 模型将人类大脑建模，能根据声音预测大脑的活动区域。该模型比 V1 有更强的泛化能力，可将声音与脑区活动范围进行映射，为研究声音与大脑的关系提供了参考。 * per Turb AI 模型：per Turb AI 公司隐身很久后推出的模型，用于预测基因编辑后小鼠大脑 800 万个细胞的变化。该研究可应用于基因治疗，特别是针对脑部肿瘤等难题的突破。 * Claw Institute 平台：Claw Institute 创建了一个专门为 AI 研究员提供交流和讨论的平台，类似于 AI for science 版的 MOOC。平台通过持续的 ai agent 研究流程，让多个 agent 讨论、使用工具、迭代研究内容，最终形成有价值的科研成果，比之前的 Morebook 更有明确价值。 * Spell APP：Spell APP 是一款游戏产品，核心观点是提示词辜负了用户，因为大部分人不知道如何打出好的内容。该 APP 将提示词变成类似于富文本的形态，包含动态的小 block、视频、可交互组件和小图标等，丰富了用户与 AI 对话的方式，为应用开发的 UI 突破提供了灵感。 * 行业挑战与应对 * 软件秘密保守：悟空被逆向的案例表明，软件秘密越来越难保守，企业需要寻找新的业务壁垒，不能仅依赖 APP 或技能。 * 网络攻击风险：Lite LLM 库被攻击事件显示，网络攻击风险远超想象，Web coding 人员都能进行深度的供应链投毒。Future search 公司通过发现漏洞揪出了攻击事件，该公司提供研究员服务，根据任务组成合适的研究团队，未来可能会出现更多类似卖人类能力的公司。 * 技术栈选择：PHP 系统迁移的案例说明，在 AI 能很好地迁移各种语言的情况下，技术栈或使用的语言不再那么重要，新一代架构师应关注其他方面。 * 课程与项目推荐 * SRB 课程：程沐凡推荐大家观看 SRB 刚出的 agent skills 课程，认为官方出品值得关注。 * Mistral 项目：Mistral 项目用于自动化测试，用户可通过写 shim 的方式指定任务，如打开应用、搜索探索等，无需指定按钮位置，agent 会自动完成测试。结合开放测试平台，可在所有测试设备上完成自动化和黑盒测试，未来测试工程师的工作方式可能会发生改变。
47分钟 · 2个月前
2
0
AI Buzzwords EP.77 英伟达的游刃有余
观点洞察与事件 Insight & Event 宏观趋势、战略判断与关键事件。聚焦"为什么重要"而非"发生了什么" * NVIDIA GTC 2026：物理 AI 元年正式开启 — Jensen Huang 在圣何塞主会场宣布了 Vera Rubin 芯片路线图、Cosmos 3 世界基础模型、与 Uber 28 城 L4 自动驾驶合作等。GTC 不再只是 GPU 发布会，而是 AI 产业链整合的标志性节点。推理侧（Inference）已占 AI 计算开支的 55%+，今年底有望超过 70%。为什么重要：算力竞赛从训练转向推理，意味着"持续服务"而非"一次训练"才是新战场。x.com Title Unavailable | Site Unreachable LiveX | The World’s Leading Physical AI & Human-Interface Platform 比亚迪（BYD）吉利（Geely） **联想（Lenovo）华硕（ASUS）技嘉（GIGABYTE）微星（MSI）和硕（Pegatron）仁宝（Compal）英业达（Inventec）神达（MiTAC Computing）广达云技术（QCT）纬创（Wistron）纬颖（Wiwynn）华擎机架（ASRock Rack）富士康（Foxconn / 鸿海） * Anthropic 同一周推三项战略举措 — 发布 Anthropic Institute（AI 社会影响研究）、投入 1 亿美元 Claude Partner Network（企业生态）、开放 Claude 应用市场。Anthropic 在技术领导力之外正快速补齐商业化与社会信任两条腿。为什么重要：这是一家 AI Safety 公司向"全栈 AI 平台"转型的清晰信号。[What 81,000 people want from AI \ Anthropic](www.anthropic.com * LLM 正在自主训练更小的 LLM——"Vibe Training"时代 — Karpathy 与 Yi Tay 公开讨论模型自主 debug 和改进代码的"AutoML 时刻"，AI 辅助 AI 训练正从实验走向实践。为什么重要： AI 研发的生产效率将被 AI 本身加速，行业发展速度可能再次量级跃升。x.com * 阿里巴巴正式成立 Alibaba Token Hub（ATH）事业群 — 将 Qwen 大语言模型系列、悟空图像生成模型等核心 AI 资产整合至同一战略事业群，统一 Token 经济与 AI 产品矩阵。为什么重要：阿里将分散的 AI 资产统一建制，信号明确——ATH 是对标 OpenAI/Anthropic 的一体化 AI 平台战略。 * LangChain 创始人论文——EPD 瓶颈从"实现"转向"评审") — LangChain 创始人 Harrison Chase 的核心观察：代码越来越好写，但评审/验证速度跟不上，以前一个功能需要很多人写代码，现在变成了写代码的人太多、评审来不及。为什么重要：这是 AI 改变研发流程的关键转折，Reviewer 而非 Coder 才是新稀缺资源。模型 Model AI基础设施 AI Infra 底层技术动态：算力芯片、分布式训练、推理优化、存储网络架构与成本效率 * NVIDIA GTC 2026：Vera Rubin 路线图与 1 万亿美元订单 — Jensen Huang 透露 Blackwell 与 Vera Rubin 合计订单超 1 万亿美元，Vera Rubin 预计年底交付，能效比 Grace Blackwell 提升 10 倍。新收购 Groq LPU 预计 Q3 出货。基础模型 Foundation Model LLM最新进展：新模型发布、架构创新、上下文扩展、后训练优化、开源vs闭源生态 * Google Gemini 3.1 Pro：13/16 主流 Benchmark 第一 — ARC-AGI-2 得分 77.1%，支持 100 万 token 上下文，原生多模态。定价 $2/M 输入 token，前沿性能以商品化价格落地。Gemini 3.1 Flash-Lite 速度提升 2.5×，仅 $0.25/M 输入 token。 * DeepSeek V4 传言：1 万亿参数，原生多模态 — 3 月 11 日，OpenRouter 出现神秘 "Hunter Alpha" 1T 参数模型，业界推测为 DeepSeek V4 内测版。同期发布 DeepSeek-Prover-V2，专攻 Lean 4 形式化定理证明。原来是MiMo * MiroMind MiroThinker-1.7 & H1：可验证推理架构 — MiroMind 发布面向法律与多步推理的模型，采用"以验证为核心"的架构，3 月 16 日发布。 * AttnRes：Kimi 发布注意力残差架构技术 — 月之暗面（Kimi）提出 AttnRes（Attention Residual）架构改进，通过在注意力层引入残差连接路径优化长上下文信息流，在长序列建模任务中表现出效率与精度提升。 * Recursive Language Models：LLM 自我参照生成的新架构探索 — Alex Zhang（MIT）探讨让语言模型在生成过程中递归调用自身的架构思路，通过自我参照机制实现更深层的推理链，理论上可突破单次 forward pass 的推理深度上限。 * 自进化 x.comMiniMax-M2.7 AutoHarness SkillNet SkillCraft Meta-Evolution 多模态模型 MultiModality Model 跨模态理解与生成：视觉-语言、视频生成、语音交互、认知可控生成、原生多模态架构 * Google Gemini Embedding 2：首个统一跨模态向量空间 — 将文本、图像、视频、音频、PDF 统一嵌入同一向量空间，大幅简化多模态搜索与检索任务。 * NVIDIA Cosmos 3：世界基础模型统一合成生成与行动仿真 — 首个将合成世界生成、视觉推理与动作仿真统一的世界基础模型，为机器人 Sim2Real 迁移提供关键基础设施。具身模型 Embodied AI AI与物理世界交互：机器人基础模型、自动驾驶、空间智能、动力学感知、Sim2Real迁移 * Uber 联手 NVIDIA Drive AV：2028 年 28 城 L4 自动驾驶 — 日产/比亚迪/吉利/现代均在 NVIDIA Drive Hyperion 上开发 L4 车辆，自动驾驶商业化时间表再次提前。其他模型 Misc Model 如世界模型，机器视觉模型等数据 Data & Context Engineering 数据燃料：合成数据、数据清洗、长上下文工程、RAG、知识图谱、领域数据集 AI安全和可解释性 AI Security & Interpretability 可控性与透明度：RLHF/RLAIF、语义可控性、幻觉抑制、可解释性、隐私保护、AI对齐 * OpenClaw × VirusTotal：Skill 安全生态正式建立 — OpenClaw 与 VirusTotal 达成合作，为 ClawHub 上发布的所有 Skills 提供安全扫描和信誉评级，用户安装第三方技能前可查阅病毒检测报告。为什么重要： Agent 技能生态的安全治理有了第一个可参照的行业标准。 * KNSoft/ClawSandbox：OpenClaw 的内核级沙箱 — 为 OpenClaw Agent 提供 Windows 内核态沙箱隔离，限制技能对系统资源的访问权限。作为独立开源项目发布，可被其他 Agent 框架复用。评测 Benchmark 能力衡量标尺：新基准测试、认知属性评估、评测集污染、人类对齐评估、模型排名 * Qwen 3.5 GPQA Diamond 88.4%，开源模型新纪录 — 同时 IFEval 达 92.6，开源三强 GLM-5/Kimi K2.5/GLM-4.7 在 Arena ELO 中集中在 1445-1451 区间。 * Agentic 编码：Codex CLI + GPT-5.3-Codex 以 77.3% 领跑 — CLI/Agentic 任务专项 Benchmark，Droid + Claude Opus 4.6 以 69.9% 位居第二。 * LM Council 新 Benchmark 平台上线 — 支持 GPT-5/Claude 4.5/Gemini 2.5/Grok 4 等主流模型跨 20+ Benchmark 对比，含 Humanity's Last Exam、FrontierMath、SWE-bench。 * PinchBench - Success Rate Leaderboard 应用和行业方案 Application & Solution 应用 C端与B端产品落地：生产力工具、内容创作、搜索重构、企业SaaS、垂直方案、商业模式验证 * L3Harris and Shield AI Achieve Breakthrough in Autonomous Electronic Warfare | L3Harris® Fast. Forward. 无人系统如何在无需人工干预的情况下实时检测、分析并应对电磁威胁 AI4S AI驱动科研突破：药物发现、材料科学、气象预测、数学证明、科学计算融合 * karpathy/autoresearch：AI 在单 GPU 上自主跑 LLM 训练实验 — Karpathy 开源 autoresearch：给 AI Agent 一套 LLM 训练环境，让其过夜自主进行实验迭代——每次修改代码→训练 5 分钟→评估→迭代，Human 只需定义研究方向。为什么重要： "Vibe Training"的具体实现，AI 辅助 AI 研究正从概念变为可复现工具。 * Claw4S Conference：提交 Skills 即参会，首个 AI4Science 开源会议 — Rob Tang（斯坦福）宣布 Claw4S，一种新型 AI4Science 会议形式，参会方式是提交可运行的 OpenClaw Skills 而非传统论文，强调可复现性与工具化交付。 * LabClaw 开源：斯坦福-普林斯顿团队为 LabOS 构建的 Skills 操作层 — A14Team（Stanford/Princeton）开源 LabClaw，一行命令将任意 OpenClaw Agent 变成完整的 AI 合作科学家，与 LabOS 深度集成，是科研 AI 化的关键基础设施。交互界面 UIUX 界面范式迁移：对话式UI、生成式界面、自适应界面、多模态交互设计机器人与实体应用 Robotics & Physical AI 真实场景机器人部署：杂乱场景操作、零售物流自动化、家庭服务、工业制造端侧AI硬件：AI手机/PC、可穿戴设备、机器人传感器、端云协同、边缘推理优化 * 特斯拉"Terafab"自研 AI 芯片工厂，7 天内启动 — Elon Musk 宣布 Tesla 专用 AI 芯片生产设施即将投产，向英伟达的垂直整合挑战开始。开发者工具 DevStack 技术栈和标准 Tech Stack & Standard 工程化基础设施：模型标准、API协议、提示词框架、MLOps/LLMOps、开源协同标准 * trycua/cua：Computer-Use Agent 开源基础设施 — 让 AI Agent 能看屏幕、点按钮、自主完成桌面任务的开源框架，支持 macOS/Linux/Windows，内置 Lume 虚拟化系统和 OSWorld 评测套件，是 CUA 领域当前最完整的开源方案。 https://fengxiaoping.notion.site/AI-Buzzwords-77-GTC-2026-329bbac116f280879e81c56bef760f60?source=copy_link
48分钟 · 2个月前
5
0
AI buzzwords EP76 - 控制论解释一切
分享资料公众号：小平的IO 本次会议围绕 Openclaw、Harness 工程、模型技术进展、安全评测及各类应用案例等多个前沿领域展开讨论，分享了最新的研究成果、项目动态和行业观点，为参会者提供了丰富的信息和思考方向，内容如下： * Openclaw 相关讨论 Openclaw 现状与问题代码冗余与安装问题：严宽表示 Openclaw 更新频繁，如 33.73.8 版本，但代码存在很多冗余函数和重复补丁，安装过程较为麻烦，且代码不够轻量，增加了用 AI 理解代码的难度，资源占用量达 10%。网关稳定性与 TOKEN 消耗：当前 Openclaw 的网关稳定性欠佳，且 TOKEN 消耗量较大，未来期望实现能力足量展现并让 agent 运行在各类设备中，因此 low TOKEN cost 至关重要。相关框架与变体不同框架特点：提到 ironclaw、nanobot、nanoclaw 等框架各有特点，如 iron cloud 主打安全，但各变体面临与 Openclaw 进化方向是否一致的问题。 GUI 与 CLI 转换：目前存在将 APP 从 GUI 转 CLI 或 CLI 转 GUI 的情况，Google 有 CLI 工具让日历邮件可被 agent 快速访问，开源社区也有小红书 CLI 等尝试，但实践效果不佳且存在风险。重要概念探讨更新范式与互联：严宽认为 Openclaw 的更新范式能否实现自进化以及互联方式如何做是值得关注的问题，目前虽有相关探索，但尚未出现类似龙虾框架的产品。 Heartbeat 与定时任务：Heartbeat 和执行任务有一定关联，如 Manus、豆包的定时任务与 Heartbeat 可能等价，定时任务和 Heartbeat 的有机结合有助于 agent 定时决策，完成任务。推荐场景与 AI 应用：在推荐场景中，固定化流程可被 AI agent 取代，但人类仍需与 agent 配合，如金融调仓等决策需人参与。同时，MCP 与 skills 存在互补关系，未来发展尚不确定。 * Harness 工程分析技术迭代趋势工作角色转变：冯小平介绍 Harness 工程相关文章，指出技术迭代使人类操作技术的工作从执行转向协调控制，如蒸汽机时代从拧阀门到设计调速器，Kubernetes 出现后开发者从具体操作服务器到设定期望。软件开发流程变化：大模型改变执行层和决策层，使软件开发流程中约束条件下的执行速度大幅提升，如原需两个月的开发现在可能只需两天，未来应专注判断能力，管理层要管理目标和产出。相关案例与启示苏联互联网设想：提到苏联格鲁什科夫提出用互联网治理国家，创建国家自动化系统和计算信息处理系统，还设想了 cybertonia 这一由机器人组成的世界，其理念可作为当前 agent social 和 agent economy 项目的参考。社会分化问题：文中指出社会存在 K 型分化，如 researcher 薪资高，而大部分人面临被 AI 取代和收入降低的问题，建议只与最聪明的 AI 交流。 * 模型与技术进展 Google AI 模型 3.1 Flash light：Google AI 发布 3.1 Flash light 模型，具有速度快、体积小的特点，是有史以来性价比最高的 gemini - 3 系列模型。搜索功能改进：其搜索增加 Canva 模式，右侧可直接生成类似 Manus 的内容，所有搜索引擎都在向 Anthropic 提出的 ARTIFACT 方向发展。 Android bench：推出 Android bench，这是首个官方针对安卓开发的 Benchmark，对评估模型在安卓程序开发中的能力有重要作用。 Sakana AI 技术 doc to Lora：Sakana AI 推出 doc to Lora 技术，可将文档通过 Hypernate network 转化为小 Lora 并应用到模型上，减少 TOKEN 消耗，提高任务速度。 text to Lora：text to Lora 可将特定任务转化为 Lora 热加载到模型上，使模型更擅长特定任务，如回复 Email 等。其他模型与研究 NANA Banana 2：NANA Banana 2 不再局限于生成图，其世界知识能力变强后可用于生成万国语言广告、宠物旅行照等。果蝇脑子复刻：有研究号称首次将果蝇脑子上传到物理仿真器中，果蝇可自行活动，但未涉及果蝇学习能力的复制，下一步计划复制小鼠脑子。给 AI 身体的探索：MIT media lab 尝试给 Openclaw 一个可表达含义的设备，让其探索创造自己的语言，目前虽未得出结果，但引发了对 AI 沟通方式的思考。 * 安全与评测安全问题研究局部与全局安全：Stanford 和哈佛的研究指出局部对齐不等于全局稳定，多个 agent 连接后会自然产生操纵共谋、战略性破坏等行为，构建 agent 金融交易系统和 agent economy 时需考虑全局安全问题。激励机制局限性：设计激励机制管理 agent 可能存在局限性，agent 不一定会按照人类设计的机制运行。评测方法介绍 post train bench：用于评估前沿 AI agent 进行 post train 优化的能力，目前 open 4.6 只能实现 20% 多的提升，有方法可提升至百分之四五十。 pinchbench：由 Openclaw 创始人 Peter 设计，用于测试不同模型对 Openclaw 的支持度和完成任务的准确率，sonnet 4.6 成功率较高，国内的 Kimi 2.5、GLM - 5、千问等处于第二梯队。 * 应用案例与项目教育领域应用：该 APP 可根据用户需求快速构建学习路径，每个学习点都有交互式小内容，口号为 “学任何东西的多邻国”，为国内 AI native 的学习 APP 提供了借鉴。创业项目与研究 smile 项目：Jason Parr 创业的 smile 项目，旨在构建基于真实人类智能体的 AI 模拟系统，可模拟股票估值、公共政策等事件的响应。 pointer CAD：通过大模型直接生成对 object CAD 里 object 的行为操作序列，实现 CAD 生成，效果较好。可视化项目创新点子可视化：通过大模型挖掘创新点子的传承关系，构建交互式界面，对企业创新管理有帮助。 word monitor：集成多种数据源和信息源的看板，可用于宏观分析和地缘政治分析，具有可交互性。机器人项目 Brilliant lab 眼镜：Brilliant lab 推出新版本 AI 眼镜，内置芯片可进行本地推理。 demos 项目：demos 项目声称无需 Ross 即可操作机器人，但实际仍需 Ross 进行导航等，引发对开发库必要性的思考。Openclaw 相关项目 Openclaw RL：可基于 Openclaw 对 agent 背后的模型进行强化学习训练，异步执行，方便用户持续与 agent 交流并提供反馈。 hopping 项目：该项目为 claw 工作添加声音提示，避免用户错过权限请求等信息，还探索了将耳机作为与 claw 对话的通道。
54分钟 · 2个月前
18
0