

Notion Agent | 3.0版本发布,全面进入工作流时代Notion推出了3.0版本,核心是引入了强大的“Agent”功能,旨在成为内置的AI队友,能自主执行多步骤复杂工作流,并具备高度个性化的学习能力。这一重大升级将用户从繁琐的重复性任务中解放出来,显著提升个人及团队的生产力,使其能专注于核心工作。Notion 3.0 与 Agent 功能的发布 Notion 3.0 版本正式上线,创始人Ivan Zhao称其为“Notion迄今为止规模最大的一次升级”。 核心引入的“Agent”功能被定位为内置在Notion中的“AI队友”,能够完成人类在Notion中的所有操作。 Agent是世界上第一个知识工作Agent,能与数据库协同,自主执行长达20分钟的多步骤复杂指令,并包含一个自定义“记忆库”。 Notion AI Agent 的核心能力与应用场景 知识检索与整合: 能够跨Notion、Slack和Google Drive搜索信息,如项目更新和发布时间线,并提供整合后的见解。 任务自动化与协作: 可将会议纪要转化为精美的提案,更新任务追踪表,保持知识库实时更新,或生成个性化新员工入职计划。 内容创作与编辑: 协助撰写和润色草稿,根据Notion风格指南提供反馈,如调整语气、结构和格式。 多步骤工作流执行: 能够处理完整的工作流,例如从汇总客户反馈到创建结构化数据库,甚至同时处理几百个页面。 个性化设置与协作效率提升 高度个性化: 用户可通过“指令页面”(记忆库)自定义Agent的行为模式,如任务分类和回复格式,Agent会从使用中学习并提升个性化程度。 提升团队协作: 充当“随叫随到的队友”,帮助团队成员快速获取信息,避免打断同事的工作流。 独特品牌形象: Notion AI拥有波浪眉和涂鸦般字迹的独特设计,旨在为日常工作增添趣味性。 Notion AI Agent 的未来发展 Notion将推出“自定义Agent”功能,允许用户创建可自动运行并与整个团队共享的AI专家。 这些自定义Agent能按设定时间或触发条件工作,例如汇总每日用户反馈、发布每周项目更新或自动分类IT需求。
OpenAI姚顺雨 | AI下半场,Agent如何用语言定义新世界来源:https://mp.weixin.qq.com/s/2sNq-AMGP3CODOvkqxrb8w OpenAI研究员姚顺雨在访谈中阐述了AI进入“下半场”的观点,核心在于从模型训练转向任务与环境的定义。他强调了语言作为通用工具对Agent泛化能力的重要性,并指出创业公司在设计新型交互方式上的巨大机会,预见了一个既可能由Super App主导又趋向多元化的AI生态。AI发展与Agent研究路径 个人研究历程: 姚顺雨从清华姚班和普林斯顿毕业,因发现语言是构建通用系统的关键,转向Language Agent研究,至今已有6年。 AI范式演变: AI经历了符号主义AI、深度强化学习(如AlphaGo),最终发展到基于大语言模型(LLM)的第三波Agent浪潮,核心是LLM提供的推理能力实现泛化。 技术选择与突破: 早期意识到GPT而非BERT更适合开放行为空间任务;通过WebShop解决Agent环境问题,并用ReAct框架协同推理与行动,标志着从“训练模型”到“使用模型”的转变。 非共识的价值: 在多数人关注垂直细分任务时,姚顺雨坚持做简单且通用的Agent,认为这是一个非共识但极具潜力的方向。 Agent核心能力与泛化 Agent的定义与推理: 从自然语言处理角度,Agent是能与外界交互、调用工具的系统;更广义上,是能自我决策、优化奖励的系统。其核心区别在于语言模型提供的推理能力,使得Agent能泛化到不同环境。 OpenAI的Agent分级: OpenAI将AI能力分为5级,Agent(L3)建立在聊天机器人(L1)和推理者(L2)能力之上,进一步发展方向是拥有奖励机制和多智能体协作。 关键能力与“机器之手”: 姚顺雨最看重Agent的上下文(Context)和记忆(Memory)处理能力,认为这是实现终身学习的基础。他将代码(Code)比作AI最重要的“手”,是实现AGI的关键环境之一。 泛化的本质: 语言是人类为实现泛化而发明的工具,AI通过语言和推理也实现了泛化,这体现在模型在数学和编程领域训练后,也能提升创意写作能力。 任务设计与商业价值 “AI下半场”的瓶颈: AI发展的主线瓶颈已从模型训练转移到如何定义好的任务和环境,需要用通用方法解决有价值的实际问题。 结果导向的奖励机制: 成功的Agent任务(如数学和编程)应采用基于结果、白盒、规则化的奖励机制,而非过程导向或基于主观偏好的奖励,以避免“投机取巧”。 AI与人类任务差异: 人类认为简单或困难的任务,对Agent而言可能相反,例如软件工程对Agent可能比客服更容易,因为前者有更清晰的环境和奖励。 Agent的应用分类: 任务可分为注重可靠性(如客服,需要Pass^k指标)和注重创造力(如科学发现,允许多次失败)两种,以及不同深广度的任务,Agent需要针对性优化。 AI生态与未来展望 创业公司的机会: 大模型能力溢出为创业公司带来机会,尤其是在设计“超越ChatGPT”的新型交互方式上,因为Super App(如ChatGPT)会形成路径依赖,为新入者留下空间。 Agent生态的构建: 未来Agent生态的重要方向包括长期记忆(Long-Term Memory)、内生奖励机制(Intrinsic Reward)和多智能体系统(Multi-Agent System),对应OpenAI的创新者(L4)和组织者(L5)框架。 中心化与去中心化: AI世界可能呈现出巨头公司推动中心化Super App与个体赋能的去中心化Agent网络并存的局面,形成一个既单极又多元的世界。 未来Agent的演化: 预测未来12-24个月,模型公司的Chatbot系统将演化为Agent系统,出现更多类似Cursor的新型Copilot产品,Agent基础设施也将围绕其运行,但短期内仍将偏向中心化Super App。
Granola | 在笔记工具中突破重围的产品策略Granola作为AI笔记工具,在竞争激烈的市场中脱颖而出,其成功秘诀在于独特的产品理念和设计哲学。它通过极简的“蜥蜴脑设计”和对用户“上下文”的深度利用,将苹果备忘录视为主要竞争对手,而非其他AI工具,并策略性地整合最优AI模型以提供无侵入性的高质量笔记体验。 独特产品理念与设计 * “蜥蜴脑设计”:认识到用户在会议高压下,记笔记的“窗口期”仅有500毫秒,大脑空间有限,因此产品需极致简洁,避免复杂界面。 * “隐形”与无侵入性:不派机器人加入会议,旨在“以最小的侵入性实现最大的实用性”,不存储音视频,只关注高质量笔记,更像“智能增强记事本”。 * 极致简化与用户反馈:在公开推出前,大胆砍掉50%功能并重新设计,以保持简洁克制的产品灵魂;产品和设计决策基于直觉,但该直觉必须建立在大量用户反馈之上,通过每周4-6次用户访谈填充“上下文”。 战略性AI模型整合 * 优先使用最佳第三方模型:奉行“尽快用上市场上最好的模型”策略,只有在遇到瓶颈(需微调或训练模型)时才自研,目前已整合多种模型(如OpenAI、Anthropic、谷歌)。 * 抽象复杂性与定制化输出:将模型选择等复杂性封装起来,通过精心设计的提示词(Prompt)和对用户背景、会议类型的洞察,确保笔记具有“Granola的味道”和持续提升的质量,例如为风投和创始人提供不同重点的笔记。 * 成本与质量权衡:目前业务中最昂贵的是高质量转录而非LLM推理;在“成本”和“质量”之间取舍时,坚持“为一年后的世界做产品”,愿意为“高智能查询质量”投入更高成本。 * 护栏与可追溯性:不追求100%准确,但通过“引用标注”功能让用户能“查看源头”(原始转录文本和引文),以解决AI幻觉和错误问题。 用户获取与留存策略 * 精准用户定位:从为“知识工作者”打造产品,转为聚焦“风投”,再到更具挑战性的“创始人”,认为能服务好创始人就能满足其他角色的基本需求。 * 价值驱动的病毒式传播:不刻意追求增长技巧,而是专注于做好产品,通过用户主动推荐和可分享的笔记链接(接收方可与转录文本聊天、提问)实现自然增长。 * 高留存关键:深刻理解“让用户养成使用习惯”的挑战,认为“产品有用”与“在正确的时间(利用会议日历)推送提醒”相结合,是提升用户留存的关键。 竞争格局与未来愿景 * 核心竞争对手是“苹果备忘录”:认为用户记笔记的决定发生在500毫秒内,其竞争对手是随时随地可用的“虚拟纸笔”,而非其他复杂的AI笔记产品。 * “思考工具”与“情境感知型工作空间”:Granola的愿景是成为AI驱动的“思考工具”,通过掌握用户的深度“上下文信息”来帮助用户更好地工作,而非简单的会议记录仪。 * 应对巨头竞争:相信初创公司在“为新媒介原生设计的产品”方面具有优势,Granola致力于构建一个能掌握用户深度个人上下文的“第二大脑”,持续创新以应对未来工作场景的需求。
iPhone 17正式发布,硬件大幅提升苹果在最新秋季新品发布会上,一反常态地在iPhone 17系列上大幅提升硬件配置,使其成为“全面无短板”的“水桶机”,并推出了全新的轻薄机型iPhone Air,显示出产品策略的重大转变。然而,尽管在硬件上表现出诚意,其AI功能(尤其是Apple Intelligence)的进展滞后,且在中国市场面临出货量下滑和功能缩水等严峻挑战。 iPhone 17系列的产品策略转变 * “挤爆牙膏”的硬件升级: iPhone 17基础款首次在内存、电池容量、动态高刷屏、均热板等方面进行补齐,且定价与上代相同。 * 基础款性能大幅提升: 全系标配120Hz ProMotion自适应刷新率技术;最低存储规格提升至256GB;电池容量扩充,搭配A19芯片视频播放时长达30小时。 * Pro系列差异化升级: iPhone 17 Pro/Pro Max影像模组大改,后置三摄均为4800万像素,长焦传感器尺寸提升56%;首次搭载VC均热板以解决散热问题。 * 芯片划分更细致: iPhone 17搭载基础A19,iPhone Air搭载A19 Pro,iPhone 17 Pro/Pro Max搭载A19 Pro(满血版),满足不同消费需求。 iPhone Air的定位与市场挑战 * 取代“Plus”系列: 全新iPhone Air取代了出货占比不足5%的Plus产品线,旨在成为一款“独当一面”的轻薄机型。 * 极致轻薄与核心配置: 机身厚度仅5.6毫米,重量165克;搭载A19 Pro芯片和自研C1X 5G基带芯片(速度提升2倍,能耗降低30%)。 * eSIM与市场隐患: 全面采用eSIM卡(国行版支持联通部分号段);但存在续航略短(27小时)和影像功能削减(双摄变单摄,无微距)的隐患。 健康功能与AI进展 * Apple Watch强化健康监测: Apple Watch Series 11新增高血压提醒功能和全新的睡眠评分体系;Apple Watch Ultra 3具备卫星链接功能。 * AirPods Pro 3集成健康与翻译: 支持心率检测功能;新增“实时翻译”功能,可自动翻译并实时显示或实现双向实时交谈。 * AI功能兑现不及预期: AirPods Pro 3的实时翻译功能依赖Apple Intelligence,但该功能在全球范围内的进展严重不及预期,此前宣传片被认定虚假宣传。 Apple Intelligence的困境与中国市场挑战 * AI上线遥遥无期: Apple Intelligence在全球范围内进展缓慢,中国区上线时间表不确定,发布会未提及合作方,加剧了用户疑虑。 * 中国市场出货量下滑: 苹果在中国市场面临严峻挑战,去年Q4出货量下降18.2%,市场份额萎缩;今年Q2即便“618”大促降价,出货量仍下降1.3%。 * 国行版功能缩水: 国行iPhone 17 Pro/Pro Max因保留实体卡槽,导致电池容量缩水(视频播放时长比全球版少2小时),进一步影响用户体验。
月之暗面Kimi K2新版本:编程能力飙升,超越Claude月之暗面发布了 Kimi K2 模型的最新版本 0905,大幅提升了其在真实编程任务中的表现,并扩展了上下文长度和API速度。此次升级旨在为开发者提供更高效、更具实用性的AI编程工具,并在多项基准测试中展现出优异性能。新模型已全面应用于Kimi应用、网页版及开放平台。 Kimi K2-0905 核心升级 * Agentic Coding 能力提升: 在公开基准测试和真实编程任务中均展现出更优性能,能更高效、自主地理解需求并生成代码。 * 扩展上下文长度: 从 128K 升级至 256K,为处理复杂长线任务提供更强支持。 * 前端编程体验升级: 提升了生成前端代码的美观度和实用性,如网站生成效果。 * 高速版 API 支持: 提供高达 60-100 Token/s 的输出速度(kimi-k2-turbo-preview)。 性能表现与基准测试 * SWE-bench Verified 表现: 在侧重真实软件工程任务的基准测试中,新版 Kimi K2 模型表现突出,多项能力超越 Claude Sonnet 4。 * 编程能力验证: 智东西对比测试显示,Kimi K2-0905 在生成个人网站、文本统计工具和图书馆管理系统等任务中,代码质量和美观度均有显著提升。 * 模型参数: Kimi K2 模型是一款混合专家架构(MoE)的开源基础模型,总参数 10000 亿,激活参数 320 亿。 API 与平台集成 * 开放平台可用性: Kimi 开放平台(platform.moonshot.cn)已上架 kimi-k2-0905-preview 模型 API。 * API 特性: 支持 256K 上下文、Token Enforcer 保证 toolcall 100% 格式正确、完全兼容 Anthropic API 并支持 WebSearch Tool、支持全自动 Context Caching。 * 定价与部署: API 定价与之前的 0711 版相同,且可在 Hugging Face、ModelScope 等平台下载模型进行自行部署。 * 广泛应用: AI 编程工具如 Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code 等已内置或接入 Kimi K2 模型,国内外云服务厂商也已部署。
Lenny's Podcast | AI浪潮下产品经理的角色变革来源:https://www.youtube.com/watch?v=e1R_-esuO9o 一、AI正在重塑产品经理角色 * PM核心职责未变,但方式变革:产品经理依旧以平衡风险和价值最大化为核心,但AI的出现让PM能够将更多时间和精力聚焦到客户洞察与战略层面,而把部分执行与流程自动化交由AI完成。 * PM成“瓶颈”:AI大幅提升了工程开发与执行效率,很多工程师拥有更强AI应用能力,使得产品决策和洞察反而成为产研流程的“瓶颈”,PM必须提升产品决策的速度和科学性。 * 从文档到原型,动手能力更重要:PM不能满足于写PRD或文档,需具备快速动手设计原型、撰写API、甚至动手编码的能力,通过与AI协作提升自身综合技能。 二、AI时代下的“Shipyard”产品团队新范式 * “造船厂模型”(Shipyard Framework): 类比真实的造船厂——表面混乱但实际高效协作。强调多元岗位能力融合,打破传统岗位边界。 Shipyard小组通常包含6大核心能力:产品、工程、设计、数据/AI、用户研究、产品市场。 团队与客户、支持部门保持“毛细管”式连通,把客户反馈引入产品设计一线。 主张面对变化要“拥抱混乱”,高度协作让混乱转为创新源泉。 * 角色边界模糊:AI加速背景下,产品、设计、工程、运营等岗位融合,强调“能跨界”的复合型人才。 三、定义与解决“Sharp Problems”(敏锐性问题) * 何为“Sharp Problem”:指那些本质需求深刻且痛点明显的问题。真正成功的产品,并非靠频繁“试错”与“转型”获得,而是精准切入、用新方式解决“老问题”。 * 实现路径:抓住那些能通过AI/新技术实现3-10倍量级提升或降本,真正能打动客户“愿意立刻付钱”的需求。比频繁转型更重要。 * B2B领域的“Unicorn Framework”:建议从问题的痛点度、频率等维度进行量化选题。 四、AI PM的成长路径与核心能力 * 三大核心价值观: 好奇心:持续主动学习,紧跟AI等前沿科技进步。 谦逊/可教性:无论资历多高,都要有做小白、向年轻同事学习、主动报名入门AI课程的勇气与习惯。 主动性/主人翁精神(Agency):能独立发掘机会、推动落地,不等待被动指令。 * 新型技能清单: 数据素养与AI模型理解。 Code/Prompt工程——会搭建实际原型、构建API、模型测试与评估(Eval)。 拥有跨界交叉学科、自主学习与产品落地的综合能力。 * 持续动手与实践: Oji自身实例:25年产品经历,近年亲自上手编程、AI应用开发、物联网家居自动化等项目,通过实际问题驱动快速成长。 建议选取“让自己充满热情的个人项目”作为学习切入口,比如家居自动化、个性化穿搭推荐等,与客户、工程师共创实际价值。
从试错到破亿:Cursor创始人的AI编程之路该访谈深入回顾了AI编程工具Cursor背后的公司Anysphere的联合创始人兼CEO Michael Truell的创业历程。文章详细阐述了Anysphere在AI编程赛道上从多次试错到找到核心方向的艰难探索,以及Cursor如何通过专注于核心AI功能和自研模型实现爆发式增长。Truell还分享了对AI将成为工程师“同事”但不会削弱编程教育价值的未来展望。 早期编程与AI探索 * Michael Truell受Paul Graham和Sam Altman文章启发,高中时期开始编程,最初目标是制作手机游戏。 * 他在16岁左右深入接触AI,通过遗传算法和神经网络技术制作机器人(如乒乓球机械臂、KiwiDrive),甚至从零编写神经网络库。 * 他很早就幸运地接触到编程和AI,并遇到优秀的合作者。 Anysphere的创业历程与转型 * Anysphere成立于2022年,最初探索AI CAD(为机械工程师开发Copilot)和加密通信软件等项目,但因缺乏相关背景和变现困难而未能成功。 * 受GitHub Copilot的启发,Anysphere最终决定进入AI编程赛道,目标是打造一个能完全自动化并变革软件开发流程的产品。 * 从写第一行代码到公开发布初版Cursor,团队仅用时3个月。 Cursor的产品策略与爆发式增长 * 早期团队曾试图从零开始打造IDE,但很快意识到应将精力集中在核心AI功能开发,并转向基于VS Code的开发。 * 从最初决定不做模型,到发现自研模型是“核心且必须建设的能力”,以利用数据持续优化用户体验。 * Anysphere坚持Cursor的通用AI编程定位,抵制了用户希望转型低代码或适配特定技术栈的建议。 * 通过不断提升产品对代码库的理解与预测能力,Cursor在2023年ARR突破100万美元,2024年有望实现1亿美元的重大跨越。 AI与编程的未来展望 * Truell认为AI将成为工程师的“同事”和高级编译器,辅助开发,但工程师仍需阅读、审查和编辑代码。 * 他强调编程的价值不会消失,就像数学一样,是一种重要的通识教育和实用技能。 * Truell建议年轻创业者专注于自己真正感兴趣的事,并长期投入,同时与互相尊重的伙伴合作。
AI行业资讯简易快报📣自建了一个文章转中文播客的小agent,中文还有些僵硬,娱乐向的初次尝试,请听众老爷们见谅🥲 下一步再慢慢打磨,希望能成为一款紧随热点的快报播客,助力和我一样的AI从业者们快速接触到最新的行业资讯。 To see the world
国产智谱AI模型升级,AI浏览器市场风云再起近期AI领域动态频频,智谱AI针对Anthropic对华服务限制,推出GLM-4.5模型迁移计划,并强调其在编程基准测试中的优异表现。同时,The Browser Company被Atlassian收购,预示着AI浏览器市场的竞争将进一步加剧。此外,月之暗面也更新了Kimi K2模型,显著提升了性能和API体验。 智谱AI应对市场变局与技术实力 * 市场应对: 针对Anthropic限制中国相关实体使用Claude服务,智谱AI推出“Claude API用户特别搬家计划”。 * 迁移方案: 该计划提供一键迁移至GLM-4.5模型,支持替换API URL无缝切换,并提供2000万Tokens免费体验及仅为Claude 1/7的价格,用量提升3倍且速度更快(平均55 Tokens/s)。 * 编程能力: GLM-4.5在SWE-reBench编码榜单上取得全球第四、国内第一,与Claude Sonnet 4差距仅4.4%,并在Terminal-Bench和CC-Bench中表现出色。 AI浏览器市场竞争与整合 * 重磅收购: 初创公司The Browser Company(以Arc和Dia闻名)被软件公司Atlassian以6.1亿美元全现金收购。 * 战略目标: 收购旨在获取全球分发渠道和资源,将Dia打造为“AI时代知识型工作浏览器”,并深度整合至Jira、Confluence等企业SaaS应用。 * 激烈竞争: 谷歌、OpenAI、微软等巨头以及Perplexity等初创公司均积极布局AI浏览器功能,市场竞争日益激烈。 Kimi K2模型性能与API升级 * 版本更新: Moonshot AI发布Kimi K2模型最新0905版本,显著提升了在真实编程任务中的表现和Agentic Coding能力。 * 核心提升: 上下文长度从128K扩展至256K,并推出支持高达60-100 Tokens/s的高速API。 * 技术架构与集成: Kimi K2基于混合专家(MoE)架构(1万亿总参数),其开放平台支持与Anthropic API完全兼容,并集成WebSearch Tool和全自动Context Caching。
邂逅罕见“红月亮”,了解月全食的出现规律本次月全食概览 * 日期与可见性: 2025年9月7日晚至9月8日凌晨,我国大部分地区可观赏到罕见的“红月亮”奇观,仅广东、福建沿海及云贵川渝部分阴雨区受影响。 * 持续时间: 全程历时近5.5小时,其中“红月亮”阶段(全食)持续1小时22分。 * 关键时间节点(北京时间): 初亏00:27,全食阶段01:31-02:53,食甚02:12(月亮最圆最红,古铜色巅峰)。 * 观测时机: 本次为近年来最佳观测时机。 “红月亮”形成原理 * 天体位置: 月全食发生时,太阳、地球、月球运行至一条直线,月球完全进入地球本影区。 * 光线散射: 太阳光中波长较短的蓝紫光被地球大气散射。 * 红光折射: 波长较长的红光则折射至月表,使月球呈现暗红色调,形成“血月”奇观。 * 影响因素: 其原理类似于晚霞的红色,且颜色深浅受大气尘埃、云层厚度影响。 月全食的规律与条件 * 两大条件: 1. 发生于农历十五前后(满月时);2. 月球运行至黄道与白道交点附近。 * 发生频率: 平均每年发生2-3次,但全程可见地区有限。 * 未来事件: 我国下一次全程可见的月全食需等到2028年12月31日至2029年1月1日,将出现罕见的“跨年月全食”。 观测与拍摄指南 * 地域覆盖: 北方(黑龙江、吉林、内蒙古、甘肃、新疆)和南方(浙江、江西、湖南南部、广西北部)有最佳晴空区。 * 观测地点: 建议选择光污染少的郊外或南向阳台。 * 拍摄建议: 全食阶段需调高ISO或延长曝光时间;使用赤道仪跟踪可提升长焦拍摄效果。 * 辅助工具: 建议通过天文App辅助定位月球方位。
Anthropic禁止中国控股公司使用ClaudeAnthropic公司宣布停止向中国资本控股50%以上的实体提供Claude大模型服务,无论其运营地点何处,此举是美国AI公司首次采取此类限制。官方理由是规避法律、监管和国家安全风险,并防止相关实体利用其技术推进自身AI研发并形成竞争。这一政策预计将对Anthropic造成数亿美元收入损失,并促使中国国内大模型生态加速自主研发。 政策内容与范围 * Anthropic于9月5日发布公告,停止向多数股权由中国资本持有的集团或其子公司提供Claude服务。 * 适用范围包括直接或间接由中国公司持股超过50%的实体,无论其运营地点(包括在海外设立的子公司),以及通过云服务或第三方平台间接使用Claude的中资背景实体。 * 此新政策也同样适用于俄罗斯、伊朗、朝鲜等被美国视为“对手国家”的实体。 封禁原因 * 法律、监管与安全风险: 担忧受限地区的公司面临法律要求,可能被迫共享数据或配合情报机构,带来国家安全风险。 * 防止技术被用于对抗性目的: 担忧这些实体通过子公司访问服务时,可能利用Anthropic的能力开发服务于对抗性军事和情报机构的应用。 * 竞争担忧: 担忧受限实体通过“模型蒸馏”等技术利用Claude模型推进自身AI研发,并与美国及盟国的科技公司在全球市场竞争。 * 服务民主利益: Anthropic声明此举旨在应对现实,并确保变革性AI能力服务于民主利益。 影响与延伸 * 行业先例: 这是美国AI公司首次做出此类针对中国资本控股实体的政策改变。 * 经济影响: Anthropic预计此举将导致其全球收入损失达“数亿美元”。 * 对使用者的影响: 即使通过云平台间接调用,中资背景实体也将被拦截,可能导致部分依赖Claude API的项目立即停摆。 * 政策倡导: Anthropic呼吁美国政府采取更严格的出口管制、加快本土能源和算力基础设施建设,并严格评估AI模型的国家安全能力。 对中国AI生态的启示 * 加速自主研发: 促使中国国内大模型生态加快研发和投入步伐,以应对外部限制。 * 提前布局与备份: 建议国内企业提前布局国产大模型,做好备份和替代方案。 * 合规与安全优先: 强调将合规和安全放在首位,以应对日益复杂的国际技术环境。 * 自力更生: 暗示当外部技术大门关闭时,唯一的出路是加强自身技术实力。 来源:https://mp.weixin.qq.com/s/aSvdlJkJddz_YF_Im6v3BA
Manus的真实经验:训练模型?还是调整上下文工程?来源:Context Engineering for AI Agents: Lessons from Building Manus Manus项目在初期面临关键选择:是训练端到端模型还是基于前沿模型的上下文学习能力构建智能体。作者通过回顾NLP领域的经验,特别是GPT-3出现后上下文学习的重要性,明确选择了上下文工程。虽然这一过程充满挑战,甚至被称为“随机研究生下降”,但Manus团队通过实践总结出了一套有效原则,旨在提升AI智能体的性能、效率和稳定性。 KV-缓存优化设计 * KV-缓存命中率是生产级AI智能体最重要的指标,直接影响延迟和成本。 * 智能体中输入与输出令牌比高度倾斜(Manus平均100:1),KV-缓存能显著降低首令牌生成时间(TTFT)和推理成本(如Claude Sonnet可达10倍节省)。 * 优化实践包括保持提示前缀稳定(避免时间戳)、上下文只追加不修改、确保序列化确定性,并根据需要显式标记缓存断点。 掩盖而非移除工具 * 随着智能体能力增强,其行动空间(工具数量)会爆炸式增长,动态添加或移除工具会使KV-缓存失效并混淆模型。 * Manus采用上下文感知的状态机管理工具可用性,通过在解码期间“掩盖”令牌logits来防止或强制选择特定行动,而非实际移除工具。 * 利用模型提供商支持的响应预填充功能(如Hermes格式的Auto、Required、Specified模式),结合行动名称的统一前缀,有效约束行动选择。 将文件系统用作上下文 * 即使是128K+的上下文窗口在真实智能体场景中也常不足且昂贵,且模型性能在长上下文下会下降。 * Manus将文件系统视为“终极上下文”:大小无限、持久化、可由智能体直接操作,模型按需读写文件作为结构化的外部记忆。 * 压缩策略设计为可恢复的,例如仅保留网页URL或文档路径,而非永久丢失内容,从而在缩短上下文长度的同时不损失信息。 通过复述操纵注意力 * 智能体在复杂任务中易漂移或遗忘早期目标,尤其是在长上下文或多步骤任务中(Manus平均50次工具调用)。 * Manus通过不断重写todo.md文件,将目标复述到上下文末尾,将全局计划推入模型的近期注意力范围,避免“中间遗忘”问题并减少目标错位。 保留错误信息 * 智能体犯错是常态,隐藏错误(如清理痕迹、重试)会移除模型学习和适应的证据。 * 在上下文中保留错误的行动及其观察结果或堆栈跟踪,能让模型隐式更新内部信念,降低重复相同错误的可能性,这是真正智能体行为的关键指标。 避免少样本陷阱 * 少样本提示在智能体系统中可能适得其反,因为语言模型擅长模仿模式,导致在重复性任务中陷入“惯性”而产生漂移、过度泛化或幻觉。 * 解决方案是增加多样性:Manus在行动和观察中引入少量结构化变体(如不同的序列化模板、措辞、格式噪声),以打破模式并调整模型的注意力,避免因上下文过于统一而使智能体变得脆弱。
腾讯混元Voyager:AI为你创建3D世界🪂腾讯混元系列模型代表了其在空间智能和生成模型方面的重大进展。最新发布的HunyuanWorld-Voyager模型是业界首个支持原生3D重建的“超长漫游世界模型”,能够生成可探索的、世界一致的3D场景。这一系列模型旨在通过AI驱动的方式,为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D环境,摆脱传统手动3D建模的限制。 腾讯混元系列模型概览 * 涵盖Hunyuan-large、Hunyuan-A13B等基础模型,以及专注于文本到图像生成、视频合成和3D资产创建等任务的专业模型。 * 强调对开源的承诺,模型规模多样,从大型MoE架构到为边缘设备设计的小型高效模型。 HunyuanWorld-Voyager:3D场景生成突破 * 腾讯混元系列最新模型,业界首个支持原生3D重建的“超长漫游世界模型”,专门用于生成可探索的3D场景。 * 解决了先前视频生成模型在遮挡视图和有限探索范围上的局限,能够直接将生成的视频导出为3D格式,无需传统三维重建后处理。 * 在WorldScore基准测试中取得最高总分,在物体控制、内容对齐、3D一致性、风格一致性和主观质量等方面超越其他领先方法。 Voyager核心技术创新 * 世界一致的视频扩散: 统一的视频扩散框架,能够同时生成精确对齐的RGB和深度视频序列,通过现有世界观测指导,弥合纯视频生成与显式3D场景建模的差距。 * 长距离世界探索: 采用高效的“世界缓存”机制存储先前生成帧的3D点,并利用点剔除技术管理内存,结合自回归推理和流畅视频采样实现迭代式场景扩展。 * 可扩展数据引擎: 开发了可自动估计任意视频相机位姿和度量深度的数据引擎,无需手动3D标注即可创建大规模、多样化的训练数据集,处理了超过10万个视频片段。 腾讯在3D世界探索中的应用与目标 * 核心目标是为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D场景,摆脱传统劳动密集型3D建模工作流程。 * 3D输入到3D输出: Voyager能够直接从视频生成中输出3D点云,简化了创建交互式3D环境的工作流程。 * 多样化3D应用: 其深度感知生成能力支持视频场景重建、3D物体纹理生成、风格化视频生成和视频深度估计等多种3D应用。 * 交互式控制: 用户可通过键盘或游戏手柄输入控制相机路径,实现对生成3D世界的交互式探索。 来源:tencent/HunyuanWorld-Voyager · Hugging Face
OpenAI斥巨资11亿收购StatsigStatsig收购与战略整合 * OpenAI以11亿美元全股票形式收购了产品分析公司Statsig,此举旨在将其行业领先的A/B测试和功能管理平台内部化。 * Statsig创始人兼CEO Vijaye Raji将出任OpenAI应用业务CTO,负责ChatGPT和Codex等核心产品的工程开发,并直接向应用CEO Fidji Simo汇报。 * Statsig团队将加入OpenAI,但公司将继续独立运营并服务现有客户,此收购尚待监管批准。 * 此次收购将加强OpenAI在产品迭代和数据驱动决策方面的能力,加速其应用程序的开发进程。 应用程序部门的领导层强化 * OpenAI已开始构建其应用程序团队,并任命Fidji Simo(前Instacart CEO,于2024年3月加入OpenAI董事会)为应用程序CEO。 * Vijaye Raji的加入填补了应用技术领导的关键职位,其在Meta的消费者工程经验将助力OpenAI下一代产品的规模化发展。 * ChatGPT的产品负责人Nick Turley及其团队现在直接向Fidji Simo汇报,进一步整合应用开发资源。 来源:https://openai.com/index/vijaye-raji-to-become-cto-of-applications-with-acquisition-of-statsig/
浅谈Agentic Web 🤖互联网的范式跃迁:走向“自动化” * PC Web (关键词驱动):以静态内容和人工分类为主,用户需主动搜索和点击,商业模式以关键词搜索广告(如Google AdWords)为核心。 * Mobile Web (推荐驱动):信息量爆炸,由推荐系统主导信息分发,用户从“搜索者”变为“消费者”,商业模式转向精准推荐与信息流广告。 * Agentic Web (智能体驱动):AI智能体成为主角,网络从“人读内容”转向“智能体执行任务”,信息被智能体调用、组合与再加工,Web成为“可行动资源”生态系统。 Agentic Web 的核心概念与运作机制 * 定义:一个分布式、交互式的互联网生态系统,由大语言模型(LLMs)驱动的自主软件智能体持续规划、协调、执行目标导向的任务,支持智能体与智能体(A2A)互动。 * 核心在于“委托 + 执行”:用户通过自然语言指令(如“规划东京行程”),智能体自主完成查询、比对、预定等复杂任务,并能与其他智能体协作。 * 智能体的双重身份:既可作为用户(Agent-as-User)模拟点击、抓取数据,也可作为接口(Agent-as-Interface)接收指令、调用服务。 Agentic Web 的三大核心维度 * 智能维度 (Intelligence):AI智能体需具备认知能力,包括上下文理解、长程规划、适应性学习、多模态整合。 * 交互维度 (Interaction):打破传统操作范式,转向基于语义的智能交互,通过MCP、A2A等协议实现智能体之间的发现、协作与任务拆解。 * 经济维度 (Economy):引入“智能体注意力经济”(Agent Attention Economy),资源方争夺对象变为“AI智能体的调用”,商业竞争重心转向争夺智能体“注意力”。 Agentic Web 的典型应用场景 * 事务型:从“点击下单”到“全自动完成任务”,智能体自主完成复杂事务(如自动订机票、酒店、办理签证)。 * 信息型:从“搜索引擎”到“持续知识发现”,智能体(如Deepresearch Agent)可作为长期研究助理,持续追踪、梳理和分析信息。 * 交流型:智能体之间能沟通、协作、谈判,形成类似“数字组织”的多体系统,实现跨智能体协同工作流(如科研项目中的智能体同步数据、共享成果)。 Agentic Web 面临的复杂挑战 * 智能体基础能力:包括推理与规划的脆弱性、记忆与上下文管理难题、以及工具使用的安全性隐患。 * 学习与自我改进:面临奖励设计难题、持续学习中的“灾难性遗忘”问题,以及任务交互学习的困难。 * 多代理协作:挑战在于如何设计协作结构、统一通信协议(如MCP、A2A),以及构建去中心化的信任体系。 * 人机交互:需解决用户意图模糊、偏好发现与引导,并设计有效的人类监督机制(HITL)。 * 安全与鲁棒性:面临风险激增、信任重构、需要人工与自动红队测试,并部署推理护栏与可控生成机制。 * 社会经济影响:传统广告模式难以为继,需探索新型商业模式,同时需应对劳动市场冲击及经济利益不平等问题。 来源:颠覆互联网的下一波浪潮:Agentic Web来了!