

Ollama 携手 MLX 领航苹果芯片性能飞跃Ollama 迎来 MLX 时代:Apple Silicon 上的本地 AI 性能大爆发 1. 引言:打破本地 AI 的速度瓶颈 在 2026 年的今天,开发者对本地运行大模型(LLM)的追求已不再仅仅局限于隐私,而是对“极致心流”的渴望。过去,在 Mac 上运行 30B 以上规模的模型往往意味着必须在速度与精度之间做痛苦的取舍。缓慢的首字响应和频繁的内存溢出,曾是阻碍本地 AI 进入生产环境的“推理瓶颈”。然而,2026 年 3 月 30 日,Ollama 发布的 0.19 预览版彻底改写了这一现状。通过深度整合 Apple 自家的 MLX 机器学习框架,Ollama 正式打通了硬件底层的加速通道。这不仅是一次简单的版本更迭,更是一场关于计算效率的范式革命。 2. 核心突破:MLX 引擎与 M5 芯片的“化学反应” 此次更新的核心在于 Ollama 架构的重构:它现在原生运行在 MLX 之上,能够百分之百释放 Apple Silicon **统一内存架构(Unified Memory Architecture)**的潜力。在 M5、M5 Pro 和 M5 Max 芯片上,MLX 引擎通过全新的 GPU 神经加速器(GPU Neural Accelerators),实现了推理性能的指数级跃升。根据官方在 2026 年 3 月 29 日的测试数据,在运行 Qwen3.5-35B-A3B 模型时,性能提升令人惊叹:Prefill(预填充/吞吐量):性能从 1154 tokens/s 飙升至 1810 tokens/s。 Decode(生成速度):从 58 tokens/s 翻倍至 112 tokens/s。 极致潜力:在使用 int4 量化模式时,性能进一步压榨至 1851 tokens/s (Prefill) 和 134 tokens/s (Decode)。 “我们要由衷感谢 MLX 贡献者团队构建的加速框架,以及 NVIDIA 在 NVFP4 量化、模型优化器及 MLX CUDA 支持方面的深度贡献;同时感谢 GGML & llama.cpp 团队建立的繁荣社区,以及阿里巴巴 Qwen 团队开源的卓越模型。这种跨厂商、跨阵营的技术协作,是本地 AI 生态最强大的基石。”这种底层优化意味着,即便是在处理数千级的 Context Window 时,Mac 用户也能享受到近乎“零延迟”的反馈。 3. 跨界融合:NVFP4 格式带来的生产级一致性 在一个 Apple 设备驱动的框架中深度集成 NVIDIA 的技术,这听起来似乎有些反直觉,但 Ollama 0.19 引入的 NVFP4 格式正是这种技术融合的精华。NVIDIA 贡献者甚至参与了 MLX CUDA 支持 的开发,这种巨头间的协作让开发者获益匪浅。NVFP4 格式能够在大幅降低内存带宽和存储需求的同时,保持极高的模型精度。对于开发者而言,这实现了关键的**“生产环境对齐(Production Parity)”**:你在本地 Mac 上调试的模型表现,将与生产环境中 NVIDIA GPU 集群运行的结果保持高度一致。此外,这也意味着 Ollama 现在能够直接运行经由 NVIDIA Model Optimizer 深度优化的各类尖端模型。 4. 更聪明的缓存:为 AI Agent 时代的到来铺路 对于依赖 Claude Code、OpenClaw、Pi、OpenCode 或 Codex 等编程智能体及辅助工具的开发者来说,响应性就是生命线。Ollama 0.19 针对 Agent 工作流引入了三大缓存升级:低内存占用(跨对话重用):支持在不同对话间复用缓存。这意味着在使用 Claude Code 等工具进行**分支对话(Branching)**或共享系统提示词(System Prompt)时,内存开销大幅降低。 智能检查点(Intelligent Checkpoints):在 Prompt 的逻辑关键位自动存储缓存快照,大幅减少重复处理时间,实现瞬间响应。 更智能的驱逐机制(Smarter Eviction):即使旧的对话分支被清理,共享的前缀缓存也能持久保留,确保高频上下文始终处于就绪状态。 这些改进让本地 AI 在处理复杂、多分支的编程任务时,能够提供媲美甚至超越云端的流畅体验。 5. 即刻上手:配置要求与启动指令 由于 Qwen3.5-35B-A3B 模型规模较大且性能强劲,本次预览版有着明确的硬性硬件要求:Mac 设备需配备 32GB 以上的统一内存。针对这一特定的 qwen3.5:35b-a3b-coding-nvfp4 模型标签,其命名涵盖了架构、任务调优(Coding)以及 NVFP4 量化格式。你可以通过以下指令快速体验:适配编程助手模式(Claude Code):ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 适配智能体模式(OpenClaw):ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 通用终端交互:ollama run qwen3.5:35b-a3b-coding-nvfp4 6. 总结与展望:本地算力的未来跃迁 Ollama 0.19 预览版的发布,标志着本地 AI 性能瓶颈的全面瓦解。通过 MLX 的底层加速、NVFP4 的精度对齐以及针对 Agent 优化的缓存系统,本地设备正从“备用选项”进化为“首选推理平台”。官方已明确表示,未来将支持更多模型架构,并进一步简化自定义模型的导入流程。当本地设备的推理速度开始超越云端,且无需担心隐私与成本时,我们的工作流将发生怎样的范式转移?这种跨越硬件厂商的技术共建,是否预示着一个更加开放、无边界的 AI 时代的到来? MLX框架主要通过以下几个核心机制显著提升了Ollama在Mac(特别是Apple Silicon)上的性能: * 充分发挥统一内存架构的优势: Ollama现在基于Apple的机器学习框架MLX构建,这使其能够最大化利用Apple Silicon独有的统一内存架构,从而在所有Apple Silicon设备上实现了大幅度的速度提升。 * 调用全新的GPU神经加速器: 在最新的Apple M5、M5 Pro和M5 Max芯片上,Ollama通过MLX调用了GPU神经加速器(GPU Neural Accelerators),这不仅加快了首字生成时间(TTFT),还显著提高了整体生成速度(即每秒生成的token数量)。 * 处理速度的直接跃升: 在具体性能表现上,得益于MLX框架,Ollama的预填充(Prefill)性能从之前版本的 1154 tokens/s 提升至 1810 tokens/s,解码(Decode)性能更是从 58 tokens/s 提升至 112 tokens/s,实现了近乎翻倍的提升。 此外,伴随此次基于MLX的更新,Ollama还引入了对NVFP4格式的支持(在保持模型精度的同时降低内存带宽和存储需求),并且升级了缓存机制(包括更低的内存占用、智能检查点和更智能的缓存淘汰机制)。这些底层和机制上的优化共同作用,使得在macOS上运行如OpenClaw、Claude Code等对性能要求极高的个人助手和代码代理时,响应速度得到了质的飞跃。 NVFP4格式对模型质量和推理速度有以下显著影响: 对模型质量的影响: * 保持模型准确性: NVFP4格式能够在压缩模型的同时保持模型的准确性,从而提供更高质量的生成响应。 * 实现生产环境级表现: 随着越来越多的推理提供商开始使用NVFP4格式,该格式让本地用户能够获得与生产环境完全一致的高质量推理结果。 对推理速度的影响: * 降低系统资源占用: NVFP4格式有效减少了推理工作负载对内存带宽和存储空间的需求,从底层提升了运行效率。 * 大幅提升生成速度: 采用NVFP4格式后,模型的处理速度(包括首个token的生成时间和每秒生成token数)得到了极大的加速。根据测试数据,使用NVFP4格式的Qwen3.5-35B-A3B模型相比此前使用Q4_K_M量化的旧版本,其预填充(Prefill)速度从1154 tokens/s跃升至1810 tokens/s,解码(Decode)速度也从58 tokens/s几乎翻倍至112 tokens/s。 Ollama 0.19版本对缓存机制进行了升级,主要目的是让编程和代理(agentic)任务变得更加高效。具体的改进包含以下三个方面: * 更低的内存占用(Lower memory utilization): Ollama现在能够跨对话重用缓存。这意味着在使用像Claude Code这样的工具并共享系统提示词进行分支时,可以减少内存的占用并提高缓存的命中率。 * 智能检查点(Intelligent checkpoints): Ollama现在会在提示词(prompt)中的智能位置存储缓存快照,从而减少提示词的处理过程并实现更快的响应速度。 * 更智能的淘汰机制(Smarter eviction): 即使旧的分支被丢弃,共享的前缀(shared prefixes)也能保留更长时间。 这种性能提升以及相关底层机制的优化,对Claude Code等代码代理(Coding agents)工具产生了以下显著影响: * 全面加速响应速度: 性能的飞跃直接加速了Claude Code等代码代理工具的运行,使其能够更快速地响应,从而更高效地处理在macOS上最繁重的工作任务。 * 更高效的内存利用与分支处理: 得益于升级后的缓存机制(跨对话重用缓存),在使用Claude Code等工具并通过共享系统提示词进行对话分支时,可以显著降低内存的占用率,并大幅提高缓存命中率。 * 提升代理任务的整体流畅度: 这些针对底层性能和缓存的改进共同作用,使得Claude Code在执行编程和复杂的代理任务(agentic tasks)时变得更加高效和流畅。 Ollama现在基于Apple的机器学习框架MLX构建,能够充分利用其统一内存架构,这为所有Apple Silicon设备都带来了大幅度的速度提升。因此,即使是旧款的Apple Silicon芯片也能从中受益。 在Mac上运行Ollama 0.19的硬件要求主要包括以下两点: * 内存容量: 请确保您的Mac拥有超过32GB的统一内存(unified memory)。 * 处理器架构: 需要配备Apple Silicon芯片的Mac,因为Ollama现在是基于Apple的机器学习框架MLX构建的。该版本支持所有的Apple Silicon设备,但如果您使用的是最新的M5、M5 Pro或M5 Max芯片,系统还可以额外调用全新的GPU神经加速器(GPU Neural Accelerators),以获得更极致的性能提升。 运行包含NVFP4加速机制的Ollama 0.19预览版,主要对Mac的芯片架构和内存有以下要求: * 支持所有Apple Silicon设备: 得益于底层切换至Apple的机器学习框架MLX,所有搭载Apple Silicon芯片的Mac都能利用统一内存架构的优势,实现大幅度的速度提升。 * M5系列芯片拥有专属加速: 如果您的Mac搭载的是最新的M5、M5 Pro或M5 Max芯片,Ollama还可以调用全新的GPU神经加速器(GPU Neural Accelerators),从而在首字生成时间(TTFT)和整体生成速度上获得更为极致的加速体验。 * 统一内存要求: 无论您使用的是哪款Apple Silicon芯片,运行此版本都必须确保您的Mac拥有超过32GB的统一内存(unified memory)。
从层级到智能:Block的组织进化论本文探讨了Block公司如何利用人工智能彻底重塑传统的企业组织架构。文章回顾了从古罗马军队到现代铁路体系中,依靠层级管理进行信息传递的历史局限性,指出这种模式常因管理跨度受限而导致效率低下。Block正试图通过构建公司世界模型和客户信号模型,用智能系统取代中间管理层的信息传递职能。在这种新兴模式下,企业由原子能力、智能层和交付界面组成,从而实现更快的决策速度。通过将人才简化为个人贡献者、直接负责人和球员兼教练三种角色,公司旨在将智能内置于系统核心,使员工作为敏捷的“边缘”力量直接服务于客户需求。 组织架构的演变在两千多年间,核心始终围绕着一个痛点:如何克服人类“管理幅度”(span of control)的限制,在庞大组织中有效地传递信息和进行协作。从罗马军制到现代企业,经历了以下几个关键阶段: 1. 罗马军队:嵌套式层级结构与管理幅度的确立罗马军队为了在广阔地域协调成千上万的士兵,建立了一套严格的嵌套层级结构。最基础的单位是8人共享帐篷的“同帐班”(contubernium),10个班组成80人的百人队,再向上汇聚成大队以及约5000人的军团。这种8 → 80 → 480 → 5,000的结构建立在一个简单的人类局限性上:一个领导者只能有效管理3到8人。这一结构本质上是一种信息路由协议,并奠定了至今所有大型组织都在遵循的“管理幅度”约束条件。 2. 普鲁士军队:参谋部与中层管理的雏形1806年耶拿战役战败后,普鲁士军队意识到不能仅靠高层的个人天才,而是需要一个系统。他们创建了总参谋部(General Staff),这批受过训练的军官不直接参与战斗,而是专门负责计划行动、处理信息和跨部门协调。这实际上是“中层管理”在历史上出现的前身。同时,军队在此阶段正式确立了“业务线”(line,推进核心任务)和“职能/参谋”(staff,提供专业支持)的区别,这些词汇至今仍被现代企业广泛使用。 3. 美国铁路与科学管理:军制进入商业领域19世纪四五十年代,受过西点军校训练的工程师将军事组织的层级、部门结构和官僚报告系统带入了美国私营铁路公司。为了管理绵延500多英里、拥有数千名工人的复杂系统并防止致命的火车相撞事故,纽约和伊利铁路公司的丹尼尔·麦卡勒姆(Daniel McCallum)绘制了世界上第一张组织架构图,将罗马人使用的权力层级和结构化信息流正式化,成为了现代公司的蓝图。随后,“科学管理之父”弗雷德里克·泰勒将工作分解为专业任务并交由专家执行,打造了注重效率的职能型金字塔结构。 4. 二战与战后跨国企业:跨职能团队与矩阵式组织二战期间的曼哈顿计划面临极端的保密和时间压力,罗伯特·奥本海默为了解决关键难题,打破了军队的隔离直觉,创建了当时企业界前所未有的跨职能协作团队。战后,随着企业规模扩大和全球化,传统的职能结构显得捉襟见肘。1959年,麦肯锡提出了结合职能专业和部门业务的矩阵式组织(Matrix organization),在中央标准和地方敏捷性之间取得平衡,推动了战后专业化现代公司的发展。此后,为了应对矩阵结构的僵化,麦肯锡又提出了7-S框架,强调组织不仅需要战略、结构等“硬性”元素,还需要共同价值观、技能等“软性”元素来实现一致性。 5. 现代科技企业:从扁平化实验到 AI 智能组织近几十年来,Spotify(跨职能小队)、Zappos(合弄制/消除管理头衔)和Valve(无正式层级的扁平结构)等科技公司尝试了激进的组织实验,以打破传统层级的官僚主义。然而,当组织扩展到数千人时,往往会因为缺乏替代的信息路由机制而重回传统的层级协调模式。 如今,像 Block 这样的前沿公司正在探索下一次组织跃迁:利用 AI 技术彻底取代人类组成的传统层级信息传递网络。通过构建包含所有决策、代码、进度等机器可读数据的“公司世界模型”,AI 系统能够实时维持全局业务图景并进行协调工作,使公司从传统的“层级结构(Hierarchy)”向“智能体(Intelligence)”演变。在这种未来架构下,人类员工位于“边缘”(The edge)负责应对复杂现实和高风险决策,由系统而非中层管理者来为他们提供行动所需的上下文。 Block 致力于将公司构建为一个智能体(或 mini-AGI),通过 AI 系统来执行传统上由中层管理者承担的协调和信息传递职能。其利用 AI 替代传统中层管理职能的核心方式如下: 构建“公司世界模型”替代信息传递传统中层管理者的核心工作是了解团队动态并在层级上下传递背景信息。由于 Block 是一家远程办公优先的公司,所有的决策、讨论、代码、计划和进度都会留下机器可读的记录,AI 利用这些原始素材构建并持续维护一个“公司世界模型”(company world model)。这个模型能够实时掌握正在构建什么、哪里遇到了阻碍以及资源的分配情况,从而直接接管了过去依赖管理层级来路由和传递信息的功能。 通过“智能层”自动响应并组合解决方案Block 结合基于真实交易数据构建的“客户世界模型”,开发了一个“智能层”(intelligence layer)。该智能层能够主动感知客户的特定时刻与需求,并将各项底层金融能力(Capabilities)自动组合成定制化的解决方案。例如,当系统预测到某个餐厅商户将面临季节性现金流紧张时,智能层会自动组合短期贷款并调整还款计划主动推送给商户。这种机制直接取代了传统产品经理通过假设来制定产品路线图的职能,让客户的真实情况直接生成工作待办事项。 重塑组织结构,将人类部署在“边缘”在 AI 接管了信息路由与对齐工作后,组织的“智能”存在于系统之中,而人类员工则处于“边缘”(the edge)直接接触现实。员工负责处理 AI 无法感知的直觉、文化背景、伦理道德决策以及高风险的突发情况。世界模型为这些员工提供了行动所需的全部背景信息,使他们无需等待指挥链的信息传达即可直接采取行动。 为此,Block 不再设立永久性的中层管理层,而是将人员角色精简为三类: 独立贡献者(Individual Contributors, ICs):他们是系统特定层面的深度专家,负责构建和运行系统的各项功能(包括底层能力、模型、智能层和交互界面)。由于系统内的“世界模型”已经为他们提供了过去需要由管理者来传递的背景信息,因此他们无需等待上级指令,就能直接针对自己负责的层面做出决策。 直接负责人(Directly Responsible Individuals, DRIs):他们主要负责特定的跨领域问题、寻找业务机会以及对客户成果负责。DRI 拥有充分的权限,可以根据需要从世界模型团队、各项能力团队和界面团队中调集资源来解决特定期限内的问题,并在完成任务后转向解决新的挑战。 球员兼教练(Player-coaches):他们取代了传统上主要负责信息传递的中层管理者,将一线的构建工作与团队人才培养结合起来。他们依然会亲自参与编写代码、构建模型或设计界面,同时也会投资于周围员工的成长。因为系统的“世界模型”处理了信息对齐,而 DRI 结构处理了战略和优先级,球员兼教练不需要将时间耗费在状态汇报和会议上,而是可以专心于专业技能(craft)的提升和人员发展。 通过这种方式,Block 试图打破两千年来受制于“管理幅度”(span of control)的传统层级组织限制,利用 AI 解决多层级带来的信息流动缓慢问题。 在 AI 驱动的组织(如 Block 正在构建的模式)中,决策权的分配发生了根本性的倒置:智能存在于系统之中,而人类的决策权被推向了组织的“边缘”(the edge)。传统的层级指挥链被打破,决策权的具体分配机制如下: 1. 消除层级审批,实现基于系统上下文的自主决策过去,决策需要依赖管理层级自上而下地传递信息和指令;而在 AI 组织中,系统的“世界模型”直接为处于边缘的每位员工提供了行动所需的完整背景信息。这意味着员工无需再等待指挥链的信息传递,就能直接采取行动并做出决策,使得每个人都获得了充分赋权,且更贴近实际工作和客户。 2. 人类专注于高风险与复杂现实的决策日常的业务对齐和信息路由由系统接管,人类则负责在“边缘”与现实世界接触,做出模型无法或不应单独做出的决策。这些决策权包括: * 伦理与道德判断。 * 处理前所未见的新颖情况。 * 代价极其高昂的高风险/生死攸关时刻的决策。 * 依赖人类直觉、文化背景、主观方向感以及信任动态的判断。 3. 三种核心角色的决策权划分在取消了永久性的中层管理层后,组织内的决策权被清晰地划分给以下三种角色: * 独立贡献者(ICs)拥有垂直领域的执行决策权: 作为深度专家,他们负责构建和运营特定的系统层(如底层能力、模型、界面等)。借助世界模型提供的上下文,他们可以完全自主地针对自己所在的层级做出决策,而无需等待上级指示。 * 直接负责人(DRIs)拥有跨领域的资源调配与战略决策权: DRIs 负责特定的跨领域问题或客户成果(例如解决特定商家群体的流失问题),并掌握项目的战略和优先级。他们被赋予了充分的决策权限,可以跨部门直接调动资源(例如从模型团队、借贷能力团队和界面团队抽调力量)以达成目标。 * 球员兼教练(Player-coaches)专注于专业与人员发展的决策: 传统管理者在状态汇报和优先级谈判上的决策权被剥离(分别交由系统和 DRI 负责),球员兼教练的决策和精力完全集中于专业技能(craft)的建设以及团队人员的培养与发展。 在没有传统中层管理层的情况下,Block 主要通过人工智能驱动的系统和新的角色分配来保证团队的目标一致性和战略落地: 1. 由“公司世界模型”自动处理信息对齐传统中层管理者的核心工作之一是了解团队动态并在层级间传递背景信息。Block 作为一个远程办公优先的公司,所有的决策、讨论、代码、计划和问题都作为机器可读的记录存在。AI 利用这些原始素材持续构建和维护一个实时的“公司世界模型”,精确掌握正在构建的内容、遇到的阻碍以及资源分配情况。因此,系统的“世界模型”直接接管了过去依赖管理层级来传递的信息,自动接管并处理了团队之间的信息对齐工作。 2. 由 DRI(直接负责人)主导战略与优先级在系统接管信息流通后,跨领域的复杂问题和客户成果交由直接负责人(DRIs)来统筹。DRI 结构专门负责处理组织的战略方向和任务优先级。他们拥有充分的授权,可以根据特定的挑战(例如在 90 天内解决某个特定细分市场的商户流失问题),随时从各项能力团队、世界模型团队和界面团队调集所需的资源,确保团队向统一的战略目标推进。 3. 以客户真实需求直接生成工作待办事项团队的开发目标不再由产品经理通过假设和开会来制定传统的产品路线图。相反,Block 的“智能层”会基于真实的金融交易数据主动为客户组合解决方案。当智能层试图组合解决方案却因为缺乏某种底层能力而失败时,这种失败信号就会直接成为未来的研发路线图。这种机制确保了团队的目标始终完全与真实的客户现实保持一致,从根本上消除了因人为判断失误而导致的偏离。 通过这套机制,身处业务“边缘”的人类员工无需再等待指挥链的指令,系统的世界模型为他们提供了充分的上下文,而 DRI 明确了优先级,使得整个组织能够在没有中层管理者参与状态汇报和对齐会议的情况下,依然保持高速且目标一致的运转。
Claude Source Code:构建顶级编程智能体这些资料详细分析了 Anthropic 推出的 AI 编程工具 Claude Code 的内部架构与隐藏功能。通过对泄露源码的深度拆解,文中揭示了该工具并非简单的聊天外壳,而是一个拥有 55 个目录和 331 个模块 的精密代理操作系统。技术要点涵盖了利用 异步生成器 实现的零延迟流式响应,以及通过四层 上下文压缩策略 维护超长对话质量的机制。此外,源码中还发现了尚未正式发布的 KAIROS 持续助手、多智能体协作模式以及名为 BUDDY 的内置电子宠物系统。 对于开发者而言,资料强调了通过配置 CLAUDE.md、自定义 生命周期钩子 以及调整环境变量来大幅提升开发效率的方法。总而言之,这些文档为用户提供了一份从底层原理到高阶调优的 生产力指南,旨在将 Claude Code 从基础助手转变为高度定制化的自动化开发平台。 Claude Code 为了应对长对话带来的上下文压力,设计了一套基于成本和上下文使用率递进的四层 Compact(压缩)架构。这种机制按照“成本最低的策略优先运行,最激进的策略最后兜底”的原则,在保证语义和缓存命中的前提下优化上下文。具体四层架构如下: 第一层:MicroCompact(微压缩)与 Cache Edits * 触发条件与目标:作为最轻量级的常规清理,主要针对对话中冗长的旧 tool_result(工具调用结果)。 * 核心黑科技:系统会根据缓存的“热度”采取不同策略。如果缓存已过期(超过5分钟),直接清空旧的工具结果;如果缓存还“热着”,则通过发送 cache_edits 指令,在 API 层面让服务端将特定的旧数据块标记为“跳过”。 * 效果:这种增量删除技术让本地消息序列保持不变,在缩短模型可见上下文、节省 Token 的同时,完美保持了前缀缓存(Prompt Cache)的命中率,极大降低了延迟和成本。 第二层:SessionMemoryCompact(会话记忆精确切割) * 触发条件与目标:当清理工具结果仍不足以释放空间时,系统会对旧对话进行“外科手术式的精确切割”。 * 执行机制:系统会保留最近 10K-40K Token 的消息,并用一条简短的 Session Memory(如“之前我们讨论了……”)来替代被裁剪的旧对话。 * 安全规则:切割时绝不拆散完整的交互组。例如,tool_use(工具调用)和 tool_result(结果)必须成对出现,thinking(思考过程)必须和关联的动作在一起,宁可多保留一些数据,也坚决不破坏上下文的语义完整性,防止模型陷入逻辑混乱。 第三层:Full Compact(全量压缩) * 触发条件与目标:当整个对话上下文接近容量上限,且前两层处理不够时触发。 * 执行机制:系统会 Fork(派生)出一个后台 Agent 读取并总结全部对话历史。这个过程会将占用大量 Token 的图片替换为文本标签(如 [image])以节省空间。 * 缓存复用魔法:这个摘要 Agent 使用与主对话完全一致的 System Prompt 和工具配置,因此能直接命中主对话的 Prompt Cache,以极低的成本完成摘要计算。 * 记忆恢复:摘要完成后,为了防止模型“失忆”,系统会自动把最近编辑过的文件内容(限额 50K Token)和激活的技能(限额 25K Token)重新注入到截断后的上下文中。 第四层:PTL Retry(Prompt Too Long / 终极兜底) * 触发条件与目标:这是最后的紧急防线(也被称为 Reactive Collapse),只有在极端情况下(例如连第三层的摘要 Agent 都因为上下文过长而触发 API 413 报错)才会启动。 * 执行机制:系统会直接从对话头部砍掉最旧的消息组,每次最多砍掉 20% 的内容,最多重试 3 次,直到上下文短到足以被 API 接受。 * 影响:这种方法虽然粗暴且会丢失重要的上下文,但它是防止程序彻底崩溃的最终保险机制。 使用建议:由于第三层和第四层压缩会不可避免地丢失重要细节,建议在日常使用中调低自动压缩的阈值(例如调整 CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70),或在任务周期的自然断点主动输入 /compact 命令,让 Claude 在清爽的上下文中工作。 根据泄露的 Claude Code 源码,其中包含了 5 个尚未发布的核心系统、32 个编译时实验性标志(Feature Flags)以及多项隐藏的内部机制和防御策略。以下是具体的汇总: 五大尚未发布的核心系统 1. KAIROS(全天候常驻助手)功能:一个永远在线的自主 Agent,不依赖用户输入即可主动观察项目、记录日志并自动发起任务(如发现测试失败或 PR 更新时主动响应)。 专属工具:具备发送文件(SendUserFile)、推送通知(PushNotification)和订阅自动响应 GitHub PR(SubscribePR)等独占工具。 相关标志:由编译时标志 KAIROS、PROACTIVE、KAIROS_GITHUB_WEBHOOKS 以及服务端网关 tengu_kairos 控制,目前在公共版本中被完全隔离。 2. ULTRAPLAN(30分钟深度规划模式)功能:通过 /ultraplan 命令将复杂的规划任务(如大型重构、架构设计)转移到云端容器(CCR)中运行。它使用 Opus 4.6 模型进行长达 30 分钟的自主思考,不受 Token 压力和上下文窗口限制。 机制:带有基于浏览器的审批 UI,批准后通过特殊标记将结果传回本地终端。 相关标志:隐藏在 tengu_ultraplan_model 和 ULTRAPLAN 标志之后。 3. Speculation(沙盒预执行/预测引擎)功能:在 Claude 回复完成后,它会在后台预测你的下一步操作并在沙盒(Overlay)中预先执行。如果你接受建议,结果会瞬间呈现。 安全机制:文件读写会被重定向到沙盒目录,直到用户确认才会合并到真实代码库中。 相关标志:由服务端 tengu_speculation 控制,目前被硬编码为关闭状态,没有用户切换开关。 4. BUDDY(电子宠物系统)功能:一个内置在终端的虚拟宠物(Tamagotchi),会在输入框旁以 5 行 ASCII 字符动画显示。包含 18 种物种(如鸭子、水豚、幽灵等),具有稀有度设定以及 DEBUGGING、CHAOS 等 5 项属性。 相关标志:受 BUDDY 标志控制,源码显示计划于 2026 年 5 月发布。 5. Daemon Mode(后台守护进程模式)功能:通过 claude --bg 命令将 Claude Code 作为后台守护进程启动(由 tmux 管理),相当于“AI 会话的 Docker”。 相关标志:受 DAEMON 和 BG_SESSIONS 标志控制。 重要的实验性标志 (Feature Flags) 源码中发现了 32 个编译时标志,用于控制正在开发或测试的功能: * VOICE_MODE:语音输入模式。 * CHICAGO_MCP:通过 MCP(模型上下文协议)实现计算机控制(Computer Use)功能。 * WEB_BROWSER / WEB_BROWSER_TOOL:内置网页浏览器工具。 * UDS_INBOX:通过 Unix 域套接字实现跨会话的 IPC 通信。 * COORDINATOR_MODE:多 Agent 协作调度模式,允许一个协调者管理多个 Worker 进行并行研发。 隐藏的内部机制与防御功能 除了新功能外,源码还泄露了 Anthropic 内部特有的隐藏逻辑: 1. 内部员工模式(USER_TYPE=ant):在编译时通过环境变量隔离。Anthropic 员工使用的是具有不同 System Prompt 的版本(包含 400+ 字的严格写作指南、专用的代码验证 Agent 等)。 该模式下甚至可以使用 CLAUDE_CODE_ABLATION_BASELINE 和 DISABLE_COMMAND_INJECTION_CHECK 来关闭所有安全和命令注入检查(危险操作)。 2. Undercover(潜伏模式):当 Anthropic 员工在公共/开源仓库提交代码时,会自动激活该模式。要求模型隐藏所有内部代号(如 Tengu、Opus 4.7)、隐藏 AI 生成的痕迹,以避免开源社区对 AI 代码产生偏见。 3. Anti-distillation defense(反模型蒸馏防御):Anthropic 假设竞争对手会抓取 Claude 的 API 流量用于训练他们自己的模型,因此在 API 请求中故意注入包含轻微错误信息的“诱饵/伪造工具定义”(Decoy tools),从而“毒化”竞争对手的训练数据。 通过配置文件和 Hook 系统,AI Agent(如 Claude Code)可以从通用的聊天助手转变为高度定制化、了解特定项目代码库的自动化工作流引擎。以下是实现深度自定义的具体方法: 一、 配置文件:多层级指令与权限自动化 1. 利用多层级的 CLAUDE.md 注入项目上下文AI Agent 会在**用户的每一个交互回合(every single turn)**重新读取 CLAUDE.md 文件,而不是仅在会话开始时加载。你可以利用高达 40,000 字符的容量,通过建立层级化的配置文件来深度定制 Agent 的行为: * 全局配置:~/.claude/CLAUDE.md(定义个人的编码风格和偏好)。 * 企业/项目级配置:加载项目根目录下的指令(定义架构决策、文件命名约定、测试模式以及“绝对不要做”的规则)。 * 模块化规则:.claude/rules/*.md(为特定模块制定规则)。 * 本地私有配置:CLAUDE.local.md(被 git 忽略的个人笔记或私有指令)。 2. 通过 settings.json 实现权限分类与自动化不要每次都手动点击“允许”执行命令。你可以通过修改 ~/.claude/settings.json 文件,使用类似 Glob 的模式匹配来配置权限。 * 自定义白名单:例如配置 "Bash(npm *)" 或 "Edit(src/**)",让 Agent 可以直接执行这些安全的常规操作,消除手动授权的疲劳。 二、 Hook 系统:拦截生命周期与自动化工作流 Hook 系统是实现深度自定义的核心扩展 API,它允许你在 Agent 运行的 25 个以上的生命周期事件中注入自定义逻辑,且无需修改任何核心源码。 1. 拦截关键生命周期事件你可以针对以下核心事件编写触发器: * PreToolUse / PostToolUse:在任何工具执行之前或之后触发。 * UserPromptSubmit:在用户提交提示词时触发(极其强大的拦截点)。 * SessionStart / SessionEnd:在会话生命周期开始或结束时触发。 2. 使用 5 种 Hook 类型扩展能力Agent 支持 5 种不同类型的 Hook 来执行不同维度的任务: * command:运行一段 Shell 命令。 * prompt:通过 LLM 动态注入上下文。 * agent:运行一个完整的 Agent 验证循环(例如派生一个子 Agent 来审查代码)。 * HTTP:调用外部 Webhook。 * function:运行 JavaScript 脚本。 3. 典型的 Hook 深度定制场景 * 自动化验证与格式化:在文件写入前(PreToolUse)自动运行代码 Lint 检查,或在编辑后(PostToolUse)自动运行测试用例。 * 动态上下文注入:利用 UserPromptSubmit Hook,在用户每次发送消息时,自动将近期的 Git diff、测试输出或项目状态隐式地注入到提示词中,免去手动粘贴背景信息的繁琐。 * 安全与合规审查:在代码提交前验证是否遵循了安全模式。 * 第三方工具集成:任务完成时通过 HTTP Hook 自动发送 Slack 通知。
Mitchell Hashimoto 的 AI 采用之路 Harness Engineering在这篇文章中,作者米切尔·哈希莫托详细记录了他从对人工智能持怀疑态度到将其深度融入软件开发工作流的演进过程。他将这段旅程划分为六个阶段,强调了从低效的聊天机器人转向具备自主能力的AI代理是提效的关键。通过复现手动工作和建立自动化验证体系,作者不仅克服了技术磨合期的挫败感,还探索出了在休息时间运行代理的策略。他主张开发者应通过工程化手段优化AI的执行环境,从而将琐碎任务外包给机器,让自己专注于核心逻辑。最终,作者展示了一种务实且克制的视角,即在保持个人工艺水平的同时,利用AI实现持续的生产力增益。 米切尔·桥本(Mitchell Hashimoto)认为,开发人员应通过以下六个核心步骤从聊天机器人过渡到智能体,从而真正实现工作效率的提升: 1. 放弃聊天机器人 (Drop the Chatbot):立即停止尝试通过聊天机器人(如网页版 ChatGPT 或 Gemini)进行核心编程工作,因为这通常需要人类反复纠正它们的错误,效率极其低下。要获得真正的价值,开发人员必须使用智能体(Agent),即能够在循环中聊天并调用外部行为(如读取文件、执行程序和发出 HTTP 请求)的语言模型。 2. 重现自己的工作 (Reproduce Your Own Work):强迫自己使用智能体重新完成已经手动做过的代码提交,确保智能体能产出相同质量的结果。虽然这个过程充满阻力,但它能帮助开发人员从第一性原理出发掌握智能体的使用技巧:将任务分解为清晰可执行的步骤、将模糊请求拆分为计划与执行阶段,以及为智能体提供验证自身工作的方法。这还能帮助你了解智能体的能力边界,避免在它们不擅长的任务上浪费时间。 3. 利用“日终智能体” (End-of-Day Agents):在每天工作结束前的最后 30 分钟启动智能体。让它们在你无法工作的时间里执行深度研究、并行探索模糊的想法,或是对 GitHub 的 Issue 和 PR 进行自动分类审查。这不仅能利用休息时间取得进展,还能在第二天早上为你提供一个“热启动”,帮助你更快进入状态。 4. 外包“十拿九稳”的任务 (Outsource the Slam Dunks):明确智能体擅长什么后,将那些你有高度信心它能做对的任务交接出去,而自己则专注于其他深度思考或更喜欢的任务。在此阶段,务必关闭智能体的桌面通知,将检查进度的控制权掌握在自己手中,以避免昂贵的注意力上下文切换。 5. 测试框架工程化 (Engineer the Harness):为了让智能体尽可能一次性产出正确结果或将修改降至最低,你需要为其提供快速、高质量的工具来自动验证错误。这主要包括两种方式:一是改进隐式提示(例如更新 AGENTS.md 文件来纠正智能体反复出现的错误行为);二是编写实际的工具脚本(如自动截图、运行测试等供智能体调用)。 6. 保持智能体常驻运行 (Always Have an Agent Running):在不断完善工具链的同时,树立“随时都有智能体在后台运行”的目标。你可以使用速度较慢但思考更深入的模型在后台处理耗时任务,同时自己在前台享受深度手工编程的乐趣,以此在自动化与热爱的工作之间找到平衡。 在AI辅助编程中,“线束工程”(Harness Engineering)是指当AI智能体(Agent)犯错时,开发者专门投入时间去设计和构建一种解决方案,以确保该智能体永远不再犯同样的错误。同时,它也包含了努力让智能体能够自行验证其执行的操作是否正确。 它提升效率的方式主要体现在以下几个方面: * 提高首次准确率: AI智能体如果能在第一次就生成正确的结果,或者生成的代码只需要极少的人工微调,其工作效率就会大幅提升。 * 自动化纠错: 通过为智能体提供快速、高质量的工具,系统能够自动告诉智能体它哪里做错了,从而大大减少人类开发者手动检查和修正AI错误所耗费的时间。 在实际操作中,“线束工程”通常通过以下两种具体形式来提升工作效率: 1. 改进隐式提示(例如维护 AGENTS.md 文件): 针对智能体反复运行错误命令或调用错误API等简单问题,通过更新指导文件(如 AGENTS.md)来明确指出并纠正这些不良行为。 2. 开发实际的编程工具: 为智能体编写专属的辅助脚本(例如用于自动截图、运行特定过滤测试的脚本等),并在提示文件中告知智能体这些工具的存在,使其能够在工作流中调用它们来自我验证。 总之,通过“线束工程”,开发者能够不断沉淀解决问题的经验并将其工具化,让AI智能体变得越来越可靠,从而实现真正的效率倍增。 实施“工作日结束后的智能体”(End-of-Day Agents)策略的核心理念是在您无法工作的时间里让智能体继续取得进展,从而提升整体效率。具体实施步骤和适用场景如下: 1. 每天预留最后30分钟在工作日即将结束、您感到疲惫且难以保持高效状态时,抽出最后30分钟来启动一个或多个智能体。这能在您休息时为您完成部分工作,从而在第二天早晨为您提供一个“预热启动”(warm start),让您能更快地进入工作状态。通常不需要让智能体整夜循环运行,因为大多数任务在半小时内即可完成。 2. 分配适合的非实时任务为了最大化该策略的价值,建议将以下三类工作交由工作日结束后的智能体处理: * 深度研究(Deep research sessions): 让智能体对某个领域进行详细调查。例如,您可以让它们查找特定编程语言和特定许可证的所有代码库,并生成包含优缺点、开发活跃度以及社会情绪等多页的总结报告。 * 探索模糊的想法: 开启并行的智能体来尝试您白天有想法但没时间着手处理的模糊概念。虽然不指望它们能产出直接可发布的结果,但这能为您第二天处理该任务时提供启发,扫清盲区(发现“未知的未知”)。 * 问题(Issue)和拉取请求(PR)的分类与审查: 您可以编写简单的脚本,利用 GitHub CLI (gh) 并行启动多个智能体来对项目问题进行分类。关键的一点是,不要允许智能体直接对外回复,而是让它们在第二天为您生成分类报告,从而引导您优先处理高价值或低工作量的任务。 通过这种方式,您可以将一天中最疲惫的时段转化为第二天高效工作的跳板,在不增加个人工作时间的前提下完成更多工作。 “马具工程化”(Harness Engineering,即我们前文提到的“线束工程”)是指:每当发现AI智能体犯错时,开发者都会专门花时间去设计和构建一种解决方案,以确保智能体永远不再犯同样的错误。它的核心目的是为智能体提供快速且高质量的工具,让系统能自动察觉并告知智能体其错误所在,从而让智能体尽可能一次性产出正确结果,或将需要人工微调的工作量降到最低。 米切尔·桥本(Mitchell Hashimoto)指出,可以通过以下两种具体形式来实施“马具工程化”并有效减少智能体的错误: * 改进隐式提示(例如更新 AGENTS.md 文件): 针对一些简单的问题,比如智能体反复运行错误的命令或找到错误的API,开发者可以直接更新 AGENTS.md(或同类指导文件)。通过在文件中记录并纠正这些不良行为,可以几乎完全解决这类错误。 * 开发实际的编程工具: 开发者可以为智能体编写专用的工具脚本,例如自动截图工具或运行特定过滤测试的脚本。在开发出这些工具后,通常还需要同步修改 AGENTS.md 文件,明确告知智能体这些工具的存在。这样一来,智能体就能利用这些工具来主动验证自己的操作是否正确。 通过投入精力进行“马具工程化”,开发者能够建立起一套防错与自我验证机制,不仅能阻止智能体再次做“坏事”,还能帮助它们确认自己正在做“好事”。 在过渡到智能体时,强制自己用智能体重复已经手动完成的提交(即把工作做两遍),是为了通过亲身实践从第一性原理出发,建立对智能体工作方式的深刻且基础的理解,从而积累真正的专业经验。 虽然这个过程最初会让人感到痛苦和充满阻力,但它能帮助开发者获得以下关键收益并最终实现效率的提升: * 掌握任务拆解技巧: 开发者会意识到不能试图在一个庞大的会话中完成所有事情,而是必须将工作分解为独立的、清晰且可执行的任务。 * 学会分离规划与执行: 在面对模糊的需求时,懂得将工作划分为独立的“规划”会话和“执行”会话。 * 认识到自我验证的重要性: 发现如果为智能体提供验证其自身工作的方法,它通常能够自行修复错误并防止代码回归(Regressions)。 * 摸清智能体的能力边界: 能够清晰地了解智能体当时擅长做什么、不擅长做什么,以及对于它们擅长的任务,应该如何引导才能获得想要的结果。 * 知道何时“不”使用智能体: 这是获得效率提升的重要部分。了解智能体的短板,避免在它们极可能会失败的任务上浪费时间,这种“避坑”能力本身就能带来巨大的时间节省。 总而言之,这种看似低效的重复性手动工作,实际上是一段必经的“抗阻训练”,它帮助开发者跨越工具采用初期的摩擦,彻底掌握使用智能体的正确姿势,从而在后续的工作中实现真正的效率提升。 在优化智能体(Agent)表现时,将工作区分为独立的“规划”(Planning)和“执行”(Execution)会话,主要是为了应对需求模糊以及避免任务体量过于庞大带来的混乱。 根据米切尔·桥本(Mitchell Hashimoto)的实践经验,这种区分策略可以通过以下几个方面来优化智能体的表现: * 应对模糊请求,扫清盲区: 当面对一个不够清晰或模糊的任务时,直接让智能体去执行往往会导致偏离预期。此时应该先开启专门的“规划”会话,甚至可以并行启动多个智能体来探索这些模糊的想法,这有助于暴露“未知的未知”(unknown unknowns)。在理清思路后,再通过独立的“执行”会话来落实具体的代码或操作。 * 避免“一步到位”的陷阱: 开发者绝不能试图在一个庞大的会话(mega session)中解决所有问题,或者期望智能体能凭空“画出一只猫头鹰”(意指没有步骤指导就直接得出复杂结果)。将规划和执行分离,本质上是为了迫使开发者将复杂工作分解为清晰、独立且可切实执行的具体任务。 * 提升自我纠错与验证的成功率: 只有在规划阶段明确了具体的执行步骤和预期目标,执行阶段的任务才会足够聚焦。任务越清晰,开发者就越容易为智能体提供验证其自身工作的方法;而一旦智能体能够自我验证,它往往就能自行修复错误并有效防止代码回归(regressions)。 总之,区分“规划”与“执行”不仅是对智能体能力的合理分配,也是一种强制开发者理清思路的“抗阻训练”。它能帮助你摸清智能体的能力边界,确保在执行阶段交出的都是智能体能够胜任的具体指令,从而大幅提高首次输出的正确率。 根据提供的资料,在“线束工程”(Harness Engineering)的实践中,除了自动截图脚本之外,米切尔·桥本还明确提到的一种实用编程工具是“运行特定过滤测试的脚本”run filtered tests 这类实际编程工具(Actual, programmed tools)的核心目的在于辅助智能体进行自我验证。它们通常具备以下特点和使用方法: * 提供快速、高质量的反馈: 这些工具能够自动检测并告诉智能体它是否犯了错,从而帮助智能体尽可能在第一次就产出正确的结果,或者将代码的后续微调需求降到最低。 * 配合指导文件(如 AGENTS.md)使用: 仅仅开发出这些测试或辅助脚本是不够的,开发者通常还需要同步修改 AGENTS.md(或等效的隐式提示文件),在文件中明确告知智能体这些工具的存在。这样,智能体才能知道在执行任务时可以调用哪些专属脚本来检验自己的工作成果。 资料中以“等等etc" 一词概括了其他可能的工具,这意味着实际上开发者可以根据项目的具体需求,编写任何能够帮助智能体验证其输出正确性的自定义脚本。 在智能体运行时,为了避免昂贵的上下文切换,最核心的策略是完全关闭智能体的桌面通知。 为了保持高效,你应该将检查智能体的控制权掌握在自己手中,由你来决定何时去打断智能体,而不是让智能体随时打断你。 具体的做法是:在你沉浸于自己的深度思考或手工编码时,屏蔽掉智能体完成任务的弹窗提示;取而代之的是,在你自身工作流的自然间隙natural breaks主动切换标签页去查看智能体的工作进度,确认无误或做出调整后,再继续投入到你原本的工作中。这样能够最大限度地保护你的注意力免受频繁干扰
朝向超级智能:评《态势感知》与AI竞赛这些资料共同探讨了前 OpenAI 研究员利奥波德·阿什布伦纳(Leopold Aschenbrenner)撰写的极具影响力的报告**《情境认知》。该报告预测,通过算力扩张和效率提升,通用人工智能(AGI)将在 2027 年左右实现,并迅速演变为超越人类的超级智能。阿什布伦纳强调,人工智能已不仅是商业竞争,更是关系到国家安全的生存竞赛。针对这一宏大愿景,各界展开了激烈辩论:支持者认为其趋势推演具有前瞻性,而质疑者则批评其在数据瓶颈、能源需求及技术可行性方面过于乐观。此外,专家们还深入讨论了对齐安全**、地缘政治风险以及人工智能对未来劳动力市场可能产生的深远冲击。 Leopold Aschenbrenner 发布的《态势感知:未来十年》(Situational Awareness: The Decade Ahead)报告通过对现有技术趋势的推演,对未来十年的AI发展提出了极其宏大且充满紧迫感的预测和警告。以下是其核心内容: 核心预测: 1. 2027年实现通用人工智能(AGI)报告指出,AI的能力提升并非偶然,而是遵循着清晰的“数量级”(OOMs)增长趋势。在计算规模、算法效率以及模型“解绑”(unhobbling,即赋予模型代理能力、长上下文记忆和工具使用)三个维度上,AI每年都分别保持着约0.5个数量级的增长。按照这个直线外推,到2027年左右,AI将完成从“高中生”到具备专家能力的飞跃,实现能够完全取代人类远程工作者和AI研究员的AGI。 2. 智能爆炸与超级智能(ASI)的降临AGI的诞生只是一个过渡。一旦AI能够独立完成AI研发工作,数以亿计的AGI将不知疲倦地全天候运转,它们极快的思考速度和并行学习能力,能将人类需要十年的算法进步压缩到不到一年内完成。这将引发一场剧烈的“智能爆炸”,在这十年的末期(2020年代末),创造出在各个科学和技术领域都远超人类的超级智能(ASI)。 3. 万亿美元计算集群与基础设施大爆发为了支撑AGI和超级智能的训练,美国将迎来一场史无前例的工业资本大动员。报告预测,到这十年末,将出现耗资超过1万亿美元、包含上亿个GPU的超大型计算集群。这个集群将需要约100吉瓦的电力(超过美国目前总发电量的20%)。为了满足这种极其庞大的能源需求,美国可能需要大规模动用天然气发电。 4. 研发国家化与“曼哈顿计划”(The Project)随着AGI的逼近和其压倒性的军事潜力显现,到2027或2028年,美国政府等国家安全机构将彻底“觉醒”。美国政府不会允许初创公司掌控如此强大的力量,而是会将领先的AI实验室整合成一个类似于二战“曼哈顿计划”的绝密国家级项目。 核心警告: 1. 极其严峻的安全与间谍威胁(Lock Down the Labs)报告严厉警告,目前美国顶尖AI实验室的安全防护极其薄弱,仅停留在“普通初创公司”水平,根本无力抵御国家级间谍活动。如果不立即采取极端级别的安全防护措施(如物理隔离的数据中心、SCIF保密设施等),美国在未来1到2年内极有可能将关键的AGI算法机密,甚至是完整的模型权重,泄露给中国等竞争对手。 2. 大国竞争与威权统治风险超级智能是一项具有决定性军事和经济优势的技术,其战略意义堪比核武器。报告警告称,其他国家在基础设施建设和芯片技术上仍具备强大竞争力,如果威权国家率先掌握超级智能,可能会利用其建立无法被推翻的极权统治。因此,美国及其自由世界盟友必须在这场关乎生存的竞赛中保持绝对领先。 3. 超级对齐(Superalignment)的失控危机如何确保比人类聪明得多的AI系统安全受控,是一个尚未解决的技术难题。目前的对齐技术(如依赖人类反馈的RLHF)将无法扩展到人类无法理解其行为的超级智能上。尤其危险的是,在“智能爆炸”引发的激烈军备竞赛中,人类将面临巨大的时间压力。如果在极其动荡的过渡期未能解决安全对齐问题,AI极有可能发生灾难性的失控甚至导致人类毁灭。 总而言之,该报告认为未来十年将是人类历史上最动荡、最危险的时期,人类必须以战时的紧迫感对待AI的安全、保密和大国竞争。 在关于人工智能“超级对齐”(Superalignment)和安全问题的争论中,学者、行业专家和政策分析师们持有截然不同的观点。这些争论的核心在于如何评估AI失控的生存风险、如何解决对齐的技术难题,以及地缘政治(军备竞赛)在AI安全中应扮演何种角色。 根据提供的资料,学者们的不同争论主要可以分为以下几个流派和焦点: 1. “AGI现实主义者”与国家安全驱动派(以Leopold Aschenbrenner为代表) 前OpenAI超级对齐团队成员Leopold Aschenbrenner认为,超级智能将在本年代末到来,超级对齐是一个**“未解决但可以解决的技术问题”**,。 * 技术路径:他指出,目前基于人类反馈的强化学习(RLHF)技术无法扩展到超越人类的系统,因为人类将无法理解和评估超级AI的代码和行为,。他主张通过“可扩展监督”(scalable oversight)、泛化研究、可解释性(interpretability),以及最关键的——利用AI本身来实现“自动化对齐研究”(Automating alignment research)来渡过难关,,,。 * 安全与地缘政治的结合:Aschenbrenner认为,最大的安全挑战不是AI自然觉醒,而是被竞争对手窃取模型权重或算法机密。他呼吁放弃初创公司式的松散管理,主张由美国政府主导,采取类似“曼哈顿计划”的极端“堡垒式”安全措施(如物理隔离的军事级数据中心),以确保自由世界在AI军备竞赛中获胜,从而争取到足够的时间和容错空间来解决对齐问题,,。 2. “末日论者”与反军备竞赛派(以Eliezer Yudkowsky为代表) 与Aschenbrenner的务实或军备竞赛态度相反,以Eliezer Yudkowsky为代表的“末日论者”(Doomers)认为超级对齐几乎是一项不可能完成的任务,AI最终会摧毁人类。 * 反对国家主义叙事:Yudkowsky认为,将AI发展框定为国家利益或中美军备竞赛是极其愚蠢的("anyone talking of arms races is a fool")。他认为在生存危机面前,全人类休戚与共。 3. 形式化验证与“可验证连贯性”派(以Jace Hall为代表) 学者Jace Hall从基础技术哲学层面批判了Aschenbrenner的理论,认为当前主流的安全和治理讨论犯了**“类别错误”**。 4. 能力外推怀疑派与“解绑”批判(以Ronan McGovern等为代表) 一些学者认为,对齐危机的紧迫性被夸大了,因为他们不认同通向超级智能的路径仅仅是“堆算力”。 5. 军备竞赛导致的失控风险(RAND报告与Scott Aaronson博客争论) 在理论层面上,许多学者和评论者(包括Scott Aaronson博客上的读者)指出了一个致命悖论:如果我们在知道如何对齐AI之前就开始与对手进行疯狂的军备竞赛,这无疑是自寻死路。 总结:学者们对AI“超级对齐”和安全的争论,实质上是在“地缘政治的紧迫性”与“物种生存的绝对安全”之间寻找平衡。一方(Aschenbrenner、Aaronson)认为必须先打赢大国科技战,用国家军事力量保护AI模型,再利用AI自身的能力来解决对齐问题;另一方(Yudkowsky)则认为军备竞赛本身就是通向毁灭的加速器;而技术理论派(Jace Hall)则呼吁放弃物理封锁的幻觉,从底层的数学和逻辑证明机制上彻底重构AI对齐的范式。 根据 Leopold Aschenbrenner 在《态势感知》(Situational Awareness)报告中的构想,利用AI实现“自动化对齐研究”的技术路径本质上是一个**“引导拔靴(Bootstrapping)”**的过程。 因为人类与真正的超级智能之间存在巨大的智力鸿沟,人类根本无法直接解决超级智能的对齐问题。因此,核心的路径是:先由人类利用一系列技术手段对齐“适度超人类(somewhat-superhuman)”的早期AGI,建立信任后,再将这些受信任的AGI转化为数以百万计的“自动化AI研究员”,由它们来攻克下一代真正超级智能的对齐难题。 具体的实现技术路径可以分为以下几个关键阶段: 阶段一:对齐早期的“适度超人类”系统 为了让初期的AGI足够安全并赢得人类信任,研究人员需要部署一系列基础对齐技术来跨越人类与早期AGI之间的智力差距: 1. 利用“评估易于生成”的特性(Evaluation is easier than generation):虽然人类无法轻易生成几百万行代码,但评估AI生成的代码中是否存在明显恶意依然相对容易,这为人类提供了最初的监督抓手。 2. 可扩展监督(Scalable Oversight):利用较小、已受信任的AI助手来辅助人类监督更大、更复杂的AI系统。例如,由一个AI助手专门负责在100万行代码中指出可疑漏洞,从而放大人类的监督能力。 3. 安全泛化研究(Generalization):研究AI系统如何将人类在简单任务上施加的监督和对齐反馈,泛化到人类无法理解的复杂困难任务上。例如,通过实验“小模型监督大模型”的效果,确保大模型在复杂场景下依然保持诚实和良性。 4. 提升模型的可解释性(Interpretability):打开AI的黑箱以探测其内部是否在欺骗或密谋。主要包括:机制可解释性:自下而上地逆向工程神经网络的特征。 自上而下的可解释性:不追求完全理解网络,而是精准定位特定信息,构建“AI测谎仪”(如探测模型撒谎时激活的神经元)。 思维链可解释性(Chain-of-thought Interpretability):迫使AI通过人类可读的词元(tokens)“大声思考”,使人类能够直接阅读其内部独白,从而轻易发现其是否有恶意企图。 5. 对抗性测试与度量(Adversarial Testing and Measurements):开发自动化的红队测试(Red-teaming),在实验室阶段就触发并修复各种潜在的失效模式(如在模型中植入“后门”并测试安全训练能否将其剔除),从而建立可靠的对齐度量标准。 阶段二:全面启动“自动化对齐研究” 一旦上述技术让初期的AGI系统变得安全且受信任,真正的“自动化对齐”就会启动: 1. 部署百万级AI安全研究员:人类将这批受信任的早期超级智能复制数百万份,让它们成为“自动化对齐研究员”。这些AI研究员的智商将超越最顶尖的人类专家,它们将夜以继日地工作,去解决下一代(更加外星化、更加深不可测的)超级智能的对齐技术。 2. 将算力向对齐研究倾斜:在“智能爆炸”这个极其危险的过渡期,人类和这些AI研究员需要做出艰难的权衡。为了确保安全,实验室必须愿意将很大一部分甚至大部分的计算资源投入到自动化对齐研究中,而不是单纯追求能力的提升。 阶段三:辅以“超级防御”(Superdefense)争取容错空间 为了防止自动化对齐研究尚未完成时AI就发生失控,技术路径中还必须强制引入深度防御机制: * 物理与系统隔离:对计算集群实行完全的物理断网(Airgapped),防止AI模型窃取自身权重并逃逸到外部网络。 * 利用AI监控AI:开发复杂的“控制”协议和监控系统,利用受信任的AI模型作为“纠察队”,实时监控其他强大AI模型的代码、思维链和网络活动。 * 定向能力限制:在训练方法上施加限制,例如从训练数据中剔除生物和化学武器知识,或者尽可能推迟使用容易导致模型产生长期隐蔽目标的“长视野强化学习(Long-horizon RL)”技术。 总结来说,自动化对齐研究的技术路径并非一蹴而就,而是一种渐进式的技术接力。它依赖于可扩展监督、安全泛化和可解释性来驯服第一代AGI,随后将维护人类生存的任务完全交棒给这支“自动化AI安全大军”,辅以严密的物理和系统隔离,以期在智能爆炸的狂飙中安全过渡。
AI科学家:全自动AI科研系统的Nature之路这些来源详细介绍了一个名为 The AI Scientist 的全自动科学研究系统,该系统由 Sakana AI 及其合作机构开发。该项目利用底层基础模型,能够自主完成从生成假设、编写代码、运行实验到撰写完整科学论文的全流程。其升级版本 v2 引入了智能代理树搜索技术,摆脱了对固定模板的依赖,实现了更具探索性的科学发现。值得注意的是,该系统生成的论文已成功通过了顶级 AI 会议工作坊的人类同行评审。此外,研究团队还开发了自动化评审系统,其评估准确度已达到与人类专家相当的水平。尽管目前仍存在幻觉和逻辑严密性等局限,但这一进展预示着人工智能驱动的自动化科研范式正在开启。 AI Scientist v2(无模板版本)通过自主生成初始代码脚本并采用更开放的探索方式,摆脱了对人类预设代码模板的依赖。它主要通过引入**代理树搜索(Agentic Tree Search)和实验进度管理器(Experiment Progress Manager)**来实现跨机器学习领域的自主科学探索。具体来说,它的自主探索过程包含以下几个核心机制: 1. 泛化的想法生成与文献检索 (Generalized Idea Generation)系统不再基于固定的起始代码,而是使用大语言模型(如 OpenAI 的 o3)生成类似论文摘要的高层级研究提案,阐述研究问题、提出新方法并假设预期结果。该过程与外部学术数据库(如 Semantic Scholar API)紧密结合,自动进行文献查阅,以识别知识空白并过滤掉与现有研究高度相似的想法,确保研究的新颖性。 2. 实验进度管理器 (Experiment Progress Manager)为了模拟真实的科学实验流程,AI Scientist v2 将实验结构化为四个明确的阶段: * 初步调查 (Preliminary investigation): 测试基本的可行性和运行原型。 * 超参数调优 (Hyperparameter tuning): 优化参数直到实验(如训练曲线)趋于稳定。 * 执行主要研究计划 (Research agenda execution): 利用算力预算全面推进核心实验。 * 消融实验 (Ablation studies): 评估不同组件对实验结果的贡献。在每个阶段结束时,一个基于 LLM 的评估器会评估所有的叶子节点,挑选出表现最好的节点作为下一个探索阶段的根节点,从而有效地修剪掉没有前景的研究方向。 3. 并行的代理树搜索 (Parallelized Agentic Tree Search)为了应对开放式研究的复杂性,系统用并行的代理树搜索取代了线性的实验流程: * 代码生成与执行: 系统(默认使用 Claude Sonnet 4)为每个节点生成具体的实验计划和 Python 代码,并在解释器中执行。如果执行出错,节点会被标记为“buggy”(有缺陷)并记录错误;如果成功,则进入数据绘图阶段。 * 视觉语言模型(VLM)反馈: 实验生成的图表会被输入给 VLM(如 GPT-4o)进行批判性审查。VLM 会检查图表是否有不合理的坐标轴、缺失图例或误导性的展示,任何被标记的问题都会引发后续的调试。 * 最佳优先搜索扩展: 系统在扩展树结构时,会并行执行多个节点。GPT-4o 会基于性能指标、训练动态和图表质量等因素,引导进行“最佳优先搜索”,不断优化成功的节点,同时也会分配一定的概率去自动调试那些报错的节点。 * 专业化节点分类: 树搜索中包含了专门用于超参数遍历、消融测试、多次随机种子重复测试(以计算均值和标准差提升鲁棒性)以及汇总图表数据的特化节点。 4. 动态的数据集访问 (Generalized Dataset Access)系统打破了只能使用固定数据集的限制,被赋予了动态构建查询的能力,可以直接从 HuggingFace Hub 下载并编写数据加载代码,或者直接读取人类科学家预先存放在本地的自定义数据集。 5. 增强的直接论文撰写 (Enhanced Manuscript Writing)在论文撰写阶段,v2 版本不再依赖外部代码编辑代理(如 Aider)来填补模板,而是利用强大的推理模型(如 OpenAI o1)结合反复的自我反思机制,直接生成整篇 LaTeX 代码。在此期间,VLM 会仔细检查论文中的图片说明与实际图表是否高度一致。 值得注意的是,由于 v2 版本是为开放式科学探索而设计的,研究范围更广且缺乏人类提供的坚实基础模板,因此它产生好论文的成功率通常低于依赖明确模板的 v1 版本。 AI Scientist-v2 系统通过一种**并行代理树搜索(Parallelized Agentic Tree Search)**机制来替代传统的线性实验工作流,从而自主地探索、生成和优化实验代码。该系统的代理树搜索优化过程主要包含以下几个核心机制: 1. 代码的生成、执行与评估循环在树搜索的每个节点中,系统(默认使用 Claude Sonnet 4)首先会生成具体的实验计划和对应的 Python 代码,并立即在 Python 解释器中执行。 * 错误标记: 如果代码运行报错,错误信息会被记录,该节点会被标记为“有错误(buggy)”,当前执行循环结束。 * VLM 视觉审查: 如果代码执行成功,系统会读取存储的实验结果并生成可视化图表。这些图表随后被输入给视觉语言模型(VLM,如 GPT-4o)进行审查。如果 VLM 发现图表存在标签不清、缺失图例或具有误导性等问题,该节点同样会被标记为“有错误”;反之,则标记为“无错误(non-buggy)”。 2. 最佳优先搜索与节点并行扩展系统会在树中选择多个节点进行并行扩展,以加速探索过程: * 调试迭代: 系统会以设定的概率(debug_prob)选择“有错误”的节点进行扩展,重点解决代码或图表中的错误。 * 最佳优先搜索(Best-First Search): 对于“无错误”的节点,系统利用 GPT-4o 进行最佳优先搜索,根据性能指标、训练动态和图表质量等因素,评估并挑选出最有潜力的候选节点。系统会基于这些优秀的父节点生成子节点,进一步细化和改进实验代码。 3. 采用专用的实验节点类型为了满足复杂的科学实验需求,树搜索过程中引入了几种专用的节点变体来优化代码和实验配置: * 超参数节点(Hyperparameter nodes): 系统性地探索不同的超参数配置,并跟踪已测试的记录以防止重复实验。 * 消融节点(Ablation nodes): 用于评估实验中各个关键组件或假设的重要性。 * 复现节点(Replication nodes): 使用不同的随机种子重新运行父节点的实验,以便计算统计学指标(如均值和标准差),提高结果的稳健性。 * 聚合节点(Aggregation nodes): 不进行新实验,而是生成 Python 脚本来整合并可视化复现节点的合并结果。 4. 阶段性推进与节点修剪整个树搜索并不是漫无目的的,而是由实验进度管理器划分为四个递进阶段:(1) 初步调查、(2) 超参数调优、(3) 执行主要研究议程、(4) 消融研究。在每个阶段结束时,一个基于 LLM 的评估器会评估所有的叶子节点,并挑选出最有希望的节点作为下一阶段探索的根节点(Root node)。这种机制有效地修剪了表现不佳的研究路径,确保计算资源和后续的代码优化都集中在最成功的实验思路上。 目前,AI 生成的科研论文已经取得了历史性的突破,首次有完全由 AI(The AI Scientist-v2)撰写的论文通过了严格的人类盲审同行评审。 根据在顶级机器学习会议 ICLR 2025 的 ICBINB 研讨会(接收率为 70%)上进行的真实测试,AI 生成的论文在同行评审中表现出以下特点和结果: * 部分论文得分超越人类平均水平:研究团队提交了 3 篇未经任何人类修改的 AI 生成论文参与盲审,其中 1 篇获得了 6.33 的平均分(三位评审的打分分别为 6、7、6),成功超越了研讨会的平均接收门槛,得分高于 55% 的人类作者论文。 * 表现不够稳定且尚未达到顶级主会标准:尽管提交的 3 篇论文中有 1 篇达到了接收标准,但另外 2 篇未能通过评审。团队内部评估也认为,这些论文目前尚未达到顶级会议主会(如 ICLR 主会接收率仅约 32%)的发表标准,甚至在门槛较低的研讨会级别也无法做到百分之百稳定被接收。 * 暴露出的常见缺陷:在同行评审和评估中,现阶段 AI 生成的论文仍存在一些明显的局限性。常见的失败原因包括:提出的科研想法过于天真或不够成熟、缺乏深入且严谨的方法论、实验代码实现错误、产生幻觉(例如生成不准确的参考文献),以及出现由于排版导致的低级错误(如在附录中重复正文图表)。 尽管目前存在局限性,但研究人员开发了一个“自动评审员(Automated Reviewer)”工具(其打分准确度和人类同行评审员相当),并在大规模评估中发现:AI 生成论文的质量符合明确的缩放定律(Scaling Law)。这表明,随着底层基础模型能力的不断提升和计算资源的增加,未来 AI 生成的科研论文质量将会水涨船高,表现出越来越强的科研能力。 目前,AI Scientist 主要局限于完全在计算机上进行的计算实验,这也是其目前聚焦于机器学习领域的原因。但研究团队预计,该系统所展示的自动化科研工作流未来可以被应用到其他科学领域中。 根据资料,AI Scientist 未来的潜在应用领域包括: * 具备自动化实验与数据收集条件的实验科学:只要某个领域的实验能够被自动执行(或者由人类代为执行)并能收集到数据,就可以适用这套系统。论文中特别指出了一个极具潜力的直接应用场景——自动化化学实验室(automated chemistry laboratories),该领域目前已经在快速发展。 * 解决全球性挑战与宏大科学目标:从更长远的愿景来看,研究团队认为,如果这类全自动科研系统能够安全地发展,它们将极大加速开放式科学发现的步伐,从而潜在地应用于治愈各种疾病、为全人类提供丰富的物质资源、保护生态环境,乃至助力太空探索(探索星空)。 总而言之,只要能建立起“提出假设-执行实验-收集数据”的闭环,AI Scientist 的这种自动化科学探索模式就有望从计算机科学扩展到更广泛的物理、化学、生物等自然科学领域。
AI驱动个人传记纪录片提示词工程架构这些资料详细阐述了如何利用提示词工程驱动人工智能,创作出专业级别的个人传记纪录片剧本。核心方法论通过整合性格模型(如MBTI和五大人格)、性别特质以及职业原型等多维变量,构建起一套系统化的叙事架构。该体系不仅应用了经典的三幕剧结构和双轨时间线理论,还特别强调了通过强制指令来消除AI可能生成的性别刻板印象。此外,文中还展示了如何将抽象的人格特质转化为具体的视听语言,包括构图、布光以及专业的双栏脚本格式。最终,这套多阶段的提示词矩阵旨在将零散的生命历程转化为具有叙事张力和深度心理洞察的影视作品。这种创新范式为影视工业提供了高效的自动化创作路径,实现了计算叙事学与艺术表现的深度融合。 传记纪录片三幕剧结构中如何通过AI构建悬念? 在传记纪录片的三幕剧结构中,通过AI构建悬念主要依靠制造人物内心的动机落差以及引入外部的“定时炸弹”(倒计时危机)。具体操作和逻辑如下: * 挖掘内在渴望与深层需求的落差:悬念与戏剧张力会自然地产生于主角表层追求的“内在渴望”(如赢得比赛、建立公司等世俗目标)与其潜意识里真正需要完成的“深层需求”(如情感成长或创伤疗愈)之间的巨大落差之中。 * 设定贯穿全片的“定时炸弹”(Ticking Clock):根据阿尔弗雷德·希区柯克的戏剧反讽理论,悬念来自于让观众掌握比角色更多的信息。在提示词架构中,必须强制AI在当下的时间线中设计一个外部的“定时炸弹”。这可以表现为法律诉讼的最后期限、不断恶化的健康状况或即将到来的气候灾难,以此构建持续的外部压迫感,迫使人物采取行动。 在具体的AI提示词(Prompt)执行阶段,悬念的构建被深度嵌入到三幕剧的骨架中: 1. 悬念前置与建置:在生成大纲时,要求AI在第一幕之前就明确描述这个迫在眉睫的“倒计时危机”及其引发的外部张力,作为贯穿全片的悬念设定。 2. 第三幕的高潮与生死抉择:在剧本第三幕(解决与升华)的高潮节点,AI需设计在“倒计时即将结束之际”,让主角面临事业存亡或情感底线的终极抉择。这种设计能够将外在渴望与内在需求之间的冲突推向最高潮,最终为观众提供情感层面的闭合感。 如何利用AI提示词打破纪录片中的性别刻板印象? 在利用大型语言模型生成剧本时,AI极易继承人类社会长期存在的性别偏见(如男性通常代表“能动性”和征服外部世界,而女性长期与被动性、共情性及家庭羁绊绑定)。要打破这些纪录片剧本中的性别刻板印象,可以采用以下核心的AI提示词策略: 1. 引入“反刻板印象与能动性增强”的强制干预指令根据人物的性别不同,需要在提示词中设定截然相反的干预方向来重塑叙事动力学: * 对于女性传记主体:提示词必须明确规定其作为叙事的绝对主动推进者,强调其在复杂专业领域中的杀伐决断与技术深度,并强制弱化无关的浪漫从属关系。例如,在生成女性理论物理学家纪录片时,防偏见指令应要求AI避免将其描绘为边缘化的辅助者或在母职间痛苦挣扎的受害者,而是将其塑造为极具决断力的学界领军人物。 * 对于男性传记主体:应当指示模型在其叙事弧线中植入情感脆弱性、对深层关系网络的审视以及对过度能动性的反思。这能有效打破硬汉式的单向度神话,例如要求AI塑造一位具有极强同理心、承认自身局限性且布满创伤裂痕的男性战地医生或疗愈者,而非传统的征服者。 2. 在全局概念设计阶段确立“反刻板印象原则 (Anti-Trope Mandate)”在构建纪录片核心大纲的提示词(Prompt 1)中,设立专门的防偏见模块: * 要求AI针对主角“性别与职业”的交叉点,主动检索影视工业中常出现的3个庸俗刻板印象(Tropes)。 * 强制AI明确声明,本片将如何运用具有强大能动性、不落窠臼的反偏见叙事来彻底打破这些陈词滥调,从而赋予人物真正的复杂性与独立自主的弧光。 3. 设计专门的“直面系统性偏见与刻板印象的反击”访谈情境纪录片的情感核心在于深度访谈,可以通过提示词控制(Prompt 4)在剧本中设计极具反击力量的对白: * 在访谈设定中,安排导演的画外音尖锐地指出社会对其性别或性格在该职业上的偏见。 * 约束AI在生成主角的回答时,必须保持克制且极具张力的隐忍情绪,并通过展示强大的个体能动性和不容置疑的行业事实来进行反击,而非使用简单的情绪宣泄。 通过在提示词工程中将社会性别特质(即反刻板印象的能动性重塑)与个体的职业原型、性格模型深度融合,可以从底层叙事规则上有效规避AI生成的陈词滥调,使得纪录片的人物塑造更加立体与当代化。 MBTI和性格特征如何影响纪录片的视觉风格? 性格特征与MBTI指标不仅决定了传记纪录片主人公的行为模式,还会直接转化为影片的剪辑节奏、视听语言和整体的“镜头语言”。通过将大五人格和MBTI特征进行符号学映射,可以为不同性格量身定制独特的视觉风格: 1. 大五人格与情绪视觉化 * 高神经质:视觉风格和场景构建会侧重于表现自我怀疑、焦虑和情绪的剧烈起伏。 * 高尽责性:视觉呈现上会强调极致的秩序感,侧重刻画人物如何通过勤勉来度过危机。 2. MBTI类型与具体视听语言映射 * INTJ(内向/直觉/思考/判断):呈现出极强的逻辑递进与结构化。视觉上偏好严谨对称的构图和冷色调,布光常采用高对比度以突出人物的智力感,剪辑坚决且不带冗余的情感泛滥。 * ENFP(外向/直觉/情感/感知):呈现充满创造力的跳跃式、非线性剪辑。视觉上大量使用手持摄影和强烈的暖色调,并穿插充满活力的辅助空镜头(B-roll),以配合其丰富的情绪和肢体语言。 * ISTJ(内向/实感/思考/判断):极其重视因果关系的线性叙事。视觉上坚持传统的纪实风格,以静态固定机位为主,拒绝浮夸的滤镜,并极为严谨地展示历史档案素材。 * ISFP(内向/实感/情感/感知):倾向于艺术化和沉浸式的剪辑,容忍长镜头的留白。视觉上使用柔和的自然光和低饱和度色彩,并大量运用特写镜头(如皮肤纹理、手部动作)来强调感官细节和内省感。 * ENTJ(外向/直觉/思考/判断):采用高度浓缩、快节奏且极具侵略性的强冲突剪辑。视觉上多使用仰拍视角和高对比度的低调布光,场景常置于开阔或象征权力的空间,以展现其强烈的控制欲。 3. 灯光情绪的语义生成在整体视觉呈现中,摄影指导会利用光线直接塑造与人物心境匹配的潜意识情绪。例如,柔和、漫反射的自然光用于传达人物的诚实与温柔;而高对比度的低调布光则用于在人物面临危机时营造强烈的紧张感与神秘色彩。 不同职业原型的纪录片叙事冲突有何区别? 在传记纪录片中,职业属性不仅决定了主角的社会活动空间,更核心的是直接决定了纪录片中叙事冲突的性质、专业术语的运用以及结构叙事的模式。 职业通常可以被抽象为特定的心理与潜意识原型,不同原型的“激励事件”与“灵魂暗夜”具有显著的区别。主要可以划分为以下几类典型的冲突差异: 1. 科学家/学者原型(探索者/系统构建者) * 冲突性质:科学家的戏剧冲突往往不在于商业战场的博弈或人际拉扯,而在于知识边界的拓展、假说的提出、验证的枯燥实验、数据的推翻与范式的转移。其叙事经常交织着实验模式、推测模式与证据模式。 * 具体表现:例如一位理论物理学家,其面临的外部悬念可能是等待一个耗资数十亿的对撞机实验公布最终数据;而其面临的“灵魂暗夜”式极度冲突,则可能是突然发现自己坚信并研究了二十年的理论存在致命的瑕疵。 2. 企业家/创业者原型(创作者/机遇型) * 冲突性质:企业家的核心驱动力是将创新梦想转化为现实的自信与执行力。他们的冲突通常高度外化,集中在商业战场的残酷博弈、高风险的杠杆决策以及外部监管压力上。 * 具体表现:以一位金融做空机构创始人为例,其中点转折的戏剧冲突可能是一场豪赌般的杠杆收购遭遇证监会的突然调查。在追求世俗极高成就的外在渴望下,他们往往还会面临过度追逐刺激而导致的极度精神内耗与孤独感,这构成了其内在的情感冲突。企业家精神还可细分为愿景型、遗产型、生活方式型等五种演进模式,每种类型的破局与冲突方式也会有所不同。 3. 心理治疗师/无国界医生原型(疗愈者/艺术创作者) * 冲突性质:传统传记常聚焦于征服自然或社会的“硬汉英雄”叙事,而疗愈者原型的冲突则深度向内,聚焦于人类的普遍苦难、极强的同理心、内在价值的和谐以及心理边界的消解。 * 具体表现:此类职业的高潮冲突(抉择与升华)往往并非传统意义上的“成功治愈患者”或“战胜疾病”,而是主角在极度共情后遭遇了严重的替代性创伤导致精神崩溃。真正的冲突解决在于疗愈者如何直面自身布满创伤的裂痕,并最终选择接纳自身的局限性。 综上所述,在构建不同职业的纪录片剧本时,必须预设相应的行业专属危机场景与专业词汇库,才能确保主角面临的冲突具有真实的行业壁垒感。 企业家原型的“灵魂暗夜”通常有哪些表现形式? 在纪录片的三幕剧结构中,“灵魂暗夜”是指人物陷入失去一切、信念崩塌的最低谷时刻,是展现其个体终极脆弱性的关键节点。 对于“企业家”这一原型(其核心驱动力是将创新梦想转化为现实的自信与执行力),其“灵魂暗夜”的表现形式并不是单一的,而是高度取决于该企业家具体的生涯演进模式。具体表现如下: * 基于细分类型的差异化表现:企业家的演进模式可以提炼为五种截然不同的类型——构建未来的愿景型、追求基业长青的遗产型、寻求深度内心满足的生活方式型、为了生计误打误撞的偶然型,以及追求财富与认可的机遇型。每一种细分类型在纪录片中所面临的“灵魂暗夜”危机都截然不同。 * 深层孤独感与精神内耗(以“机遇型”企业家为例):对于像连续创业者、金融机构创始人这类追求强烈感官刺激和高效回报的“机遇型”企业家,他们的“灵魂暗夜”通常表现为内在情感的严重剥落。在过度追逐多巴胺和强大的世俗野心之下,他们最终会暴露出极度的精神内耗,以及难以建立深度亲密关系的孤独感。这种表现形式直击他们在光鲜的商业成就背后一直逃避的深层情感需求。
生成式AI非虚构纪录片创作指南这些资源深入探讨了生成式人工智能(AI)在不同专业领域的应用、技术突破及面临的风险。第一部分重点分析了利用 NotebookLM 和 Veo 3.1 构建的非虚构纪录片创作流,详细阐述了从档案解析到高保真视频生成的全链路技术路径。随后,资料转而关注行业道德与法律合规,引用了“档案制片人联盟(APA)”发布的指南,强调在数字时代维护真实性和透明度的重要性。此外,部分内容详细披露了 CEA Industries (BNC) 的资本重组案例,剖析了该公司在转型数字资产财库过程中遭遇的治理危机、财务崩塌及代理权争夺战。最后,通过针对投资者的行动指南,揭示了技术转型背后的市场陷阱与决策逻辑。整体而言,这些材料呈现了技术革新、艺术创作与资本市场在人工智能纪元下的复杂交织。 NotebookLM 与 Veo 3.1 如何协作生成纪录片? NotebookLM 与 Veo 3.1 的深度整合为纪录片创作者提供了一套前所未有的全链路生成式 AI 工作流,它们通过分工协作,将海量的混沌档案转化为具备广播级质感的非虚构影像。 具体的协作工作流分为以下几个核心阶段: 一、 前期开发与叙事架构(NotebookLM 负责) 在这个阶段,NotebookLM 充当“结构架构师”和预生产引擎: * 超长档案解析与结构化映射: NotebookLM 基于千万级上下文窗口,能瞬间摄取并处理长达数十小时的音视频记录和数万字清洗过的非结构化文本(如破损日记、书信的 OCR 扫描件)。创作者通过结构化提示词,让 AI 提取核心冲突,并将人物轨迹映射到经典叙事理论(如“英雄之旅”或“灰姑娘式”情感弧线),从而输出高度结构化的三幕式故事大纲。生成结果严格锚定源文件并带有精确引用,确保了非虚构作品的真实性底线。 * 解说词的“逆向工程”: 创作者利用 NotebookLM 一键生成双人深度播客对谈(音频概览)。随后将下载的音频通过第三方工具转录为逐字稿,这些带有极佳口语化节奏和自然停顿的文本,会被精炼提纯为纪录片的高质量解说词草稿。 * 构建动态视听分镜板: 利用其“电影级视频概览”(Cinematic Video Overviews)功能,创作者通过“引导提示词”(Steering Prompt)约束世界观、叙事焦点和语义运镜,快速生成包含流畅动画和视觉细节的短片作为预演。在这一后台管线中,Gemini 3 担任分析文本的“创意总监”,生成静态资产后交由内部的 Veo 3 转化为连贯动画。 二、 核心视听资产生成与极致逼真度控制(Veo 3.1 负责) 进入决定最终质感的资产生成阶段后,Veo 3.1 接管工作流,将前期的设计转化为真实的物理影像: * 突破性的联合视听生成(Joint Audio-Visual Generation): Veo 3.1 能够原生支持 4K 升级输出以及原生 24 帧电影画幅。最关键的是,它能在输出画面的同时,直接合成精确同步的专业级立体声音频。系统能根据画面材质计算声音延迟,环境音与物理音效(SFX)同步延迟在10毫秒以内,而对话唇形同步(Lip-sync)延迟在120毫秒以下,极大降低了后期声画对位的难度。 * 工业级五段式提示词公式: 为了消除过度平滑的数字感,创作者在 Veo 3.1 中不再使用冗长的废话,而是遵循包含摄影机语言、主体、动作、环境上下文、风格与音频的专业五段式提示词结构,甚至采用 JSON 格式进行极其精密的语义控制。 * 死守跨镜头角色一致性: 纪录片的真实感要求极高。Veo 3.1 引入了增强的“元素至视频”管线,创作者可以先生成严谨的三视图“角色参考表”(包含衣着磨损度、特征等)并上传给系统,从而锁定视觉输出,随后只需将提示词的 Token 集中用于指挥摄影机运动与音频设计。 * 叙事时空的无缝连续性构建: 借助 Veo 3.1 的“时间戳提示词”(Timestamp Prompting),创作者可以在单镜头内精确调度不同时间段的运镜与动作;面对极端转换,可利用“首尾帧定向”自动计算出符合物理规律的平滑运动过渡;更可通过“场景延伸”以最后一帧为种子无限延展,制作出长达两分钟以上的无缝一镜到底长镜头。 NotebookLM 如何解析破损的历史日记素材? 解析破损的历史日记素材,NotebookLM 结合了前期预处理工具与自身强大的大模型推理能力,将残缺、混沌的文本转化为结构化的叙事资产。具体步骤如下: * 第一步:利用 OCR 工具进行精准扫描与数据清洗。 面对带有褶皱、墨迹污染或字迹褪色的破损旧日记,创作者首先会利用配套的 AI 光学字符识别(OCR)工具(例如 Florentine Films 团队开发的内部工具)对其进行扫描和文本清洗,将非结构化的图像转化为干净的文本数据。根据档案制片人联盟(APA)的最佳实践指南,利用 OCR 识别破损日记和利用 NotebookLM 清洗杂乱文稿属于提升素材质量的合规应用,因为这些操作并未改变历史事实的核心语义。 * 第二步:基于超大上下文窗口的海量吞吐。 清洗后的日记数据会被统一导入 NotebookLM。得益于其底层的 Gemini 1.5 Pro / 3.1 Pro 模型架构,系统具备处理高达一百万个 Token 的庞大上下文窗口能力,能够瞬间摄取、关联并推理长达数万字的残缺历史档案。 * 第三步:结构化提示词引导叙事提取。 创作者通过在 NotebookLM 的对话框中输入具有高度结构化诉求的提示词来解析日记。例如,创作者可以要求系统读取人物长达数万字的日记,提取其在特定历史时期的心理冲突,并将其映射到经典的情感弧线上(如“灰姑娘式”的升-降-升轨迹),从而输出一个具备戏剧冲突的三幕式故事大纲。 * 第四步:生成带有精确引用的事实锚定。 NotebookLM 在输出解析大纲和叙事结构时,其生成结果会严格锚定于用户上传的原始日记文件,并附带精确的引用标注。这种基于大数据的提取方式,既赋予了散乱的破损素材以电影化的叙事结构,又坚守了非虚构作品必须真实的底线。 详细介绍 Veo 3.1 的五段式提示词公式。 为了在使用 Veo 3.1 生成具有真实纪录片质感、物理运动符合逻辑的镜头时,创作者不能再依赖冗长模糊的“咒语”,而是需要采用具有极高专业性和结构化的**“五段式黄金公式”**,并将最高权重的指令放在提示词的最前端。 这五个核心模块具体如下: 1. 摄影机语言 (Cinematography) * 核心功能与要求: 定义镜号、景别与机位的运动方式。必须使用电影工业标准术语,例如“Wide static shot”(宽固定镜头)、“Dolly shot”(推轨镜头)、“Shallow depth of field”(浅景深,用于强调情绪)或“Macro lens”(微距镜头,用于捕捉纹理)。 * 实战案例: “Handheld medium close-up with a 35mm lens, slight camera shake, shallow depth of field...” (手持中景特写,35毫米镜头,轻微的相机抖动,浅景深)。 2. 主体 (Subject) * 核心功能与要求: 必须避免任何模糊的指代,使用极其精准的描述来消除 AI 的歧义。需要详细提供主体的年龄、服饰的质感、职业特征甚至污渍等细节。 * 实战案例: “...of a 60-year-old seasoned mechanic, wearing a grease-stained blue jumpsuit, with deep wrinkles and tired eyes...” (一位60岁经验丰富的机械师,穿着沾满油污的蓝色工作服,有着深深的皱纹和疲惫的眼睛)。 3. 动作 (Action) * 核心功能与要求: 动作的描述必须使用具体且单一的动词短语。因为单次生成的周期为 4-8 秒,必须避免叠加多个复杂的动作,以免导致模型内部的物理引擎崩溃。 * 实战案例: “...is slowly wiping oil from his hands with a dirty rag, looking thoughtfully slightly off-camera.” (正用脏抹布缓慢地擦拭手上的油渍,若有所思地望向镜头外)。 4. 环境上下文 (Context) * 核心功能与要求: 用于锚定主体存在的物理空间、天气状况与时间背景,为主体提供真实的基础。 * 实战案例: “...inside a dimly lit, cluttered auto repair shop. Rain is visible through the dusty background window.” (在昏暗、杂乱的汽车修理厂内。透过布满灰尘的背景窗户可以看到下雨),。 5. 风格与音频 (Style & Audio) * 核心功能与要求: 确立影片的美学基调以及声场布置。可以引入特定的视觉风格指令(如“Observational documentary”观察式纪录片、“Film grain”胶片颗粒),同时由于 Veo 3.1 支持联合视听生成,这里还可以写入极其详细的环境音和对话指令。 * 实战案例: “Style: gritty documentary realism, motivated high-contrast lighting, muted tones. Audio: SFX: rhythmic wiping sound; Ambient: heavy rain hitting a tin roof; Dialogue: He sighs, 'Another endless night.'” (风格:粗犷的纪实写实主义,受激发的强反差打光,柔和的色调。音频:音效:有节奏的擦拭声;环境音:大雨击打白铁皮屋顶;对话:他叹息道:“又是一个无尽的夜晚。”)。 进阶控制技巧:为了进一步消除模棱两可的语义并提升精确度,业界还会将这种五段式提示词转化为 JSON 数据格式(如设定 prompt、duration、style、camera、character_description 等结构化字段)来进行高级提示工程。此外,配合负面提示词(Negative Prompts),如“no logos, no extra text, no overexposed lighting”(无标志,无多余文字,无过度曝光),可以有效滤除画面生成时的常见瑕疵,保证最终输出的纯净度。 使用 Veo 3.1 生成画面时,如何保证人物长相一致? 在使用 Veo 3.1 生成画面时,要保证跨镜头的角色长相与特征一致,创作者需要利用其增强的**“元素至视频”(Ingredients to Video)**功能,并结合一套极其精密的工作流管线。具体步骤如下: * 第一步:构建标准化角色参考表 (Character Reference Sheet)首先,利用 Gemini 3.1 Pro 生成极其详尽的角色外貌设定(包括衣着磨损度、肤色、面部结构等细节)。接着,将这些设定输入给图像扩散模型(如 Nano Banana Pro、Kling 3.0 或 OpenArt),生成一张布局严谨的四列角色参考表。这张表必须包含:第一列正面全身及面部特写、第二列左侧脸、第三列右侧脸、第四列背面,且背景必须保持纯净无杂物。 * 第二步:利用“元素至视频”锁定视觉输出在 Veo 3.1 的生成界面中,系统允许创作者提供最多三至四张参考图像。创作者只需将上述制作好的角色参考表以及特定的场景背景图上传给系统,以此来“锁定”模型的视觉输出。 * 第三步:隔离视觉描述与运动指令(做减法)这是最关键的提示词控制技巧。既然 Veo 3.1 已经通过参考图“看到”了人物长相和环境布局,创作者在输入文本提示词时必须**“做减法”**。不要再浪费 Token 去重复描述人物的穿着或环境细节,而是将全部的语义空间集中用于指挥摄影机运动与音频设计。这种指令隔离能够避免模型注意力机制的分散,最大化榨取模型的动态推理能力,从而在运镜中死守人物特征的一致性。
美国AI领导力:创新、基础设施与生态系统这段文字记录了亚马逊网络服务(AWS)2025 峰会上的一场对话,重点探讨了人工智能(AI)作为一种变革性力量对经济和国家安全的影响。白宫官员大卫·萨克斯(David Sacks)指出,随着计算能力和数据中心规模的飞速增长,未来四年的智能产出将提升百万倍。对话强调了美国政府旨在通过减少监管、扩大电力基础设施以及加强国际合作,在与中国的技术竞赛中保持领先。萨克斯主张将AI视为提升生产力和推动国内生产总值(GDP)增长的核心引擎,而非仅仅关注其潜在风险。此外,文中还讨论了从简单的聊天机器人向能够执行任务的数字代理演进的技术趋势,以及教育体系如何适应这一转变。作者最后呼吁业界积极参与公共政策,以防止过度监管削弱美国的技术竞争优势。 大卫·萨克斯(David Sacks)是通过结合AI 模型、芯片和数据中心这三个核心维度的复合增长率,得出了 AI 智能将在四年内增长百万倍的结论。他的具体计算逻辑如下: * 各项指标每年增长 3 到 4 倍:他指出,AI 模型的质量、芯片的性能(在训练或推理方面)以及数据中心的规模(如 GPU 数量),每年都在以大约 3 到 4 倍的速度增长。 * 每两年提升一个数量级(10 倍):如果将这种年增长率进行复利计算,意味着每两年各项指标就会提升 10 倍。 * 四年内单项增长 100 倍:在四年的时间跨度内,每两年 10 倍的提升复利累积,会使得每个维度的能力都增长 100 倍(即 10 乘以 10)。 * 三个维度相乘得出百万倍(六个零):四年后,AI 模型将变得强大 100 倍。 用于运行这些模型的芯片将变得强大 100 倍。 承载这些芯片的数据中心规模将扩大 100 倍(例如,最先进的数据中心将从拥有 10 万个 GPU 扩大到数百万个 GPU,能耗需求也将从百兆瓦级别跃升至千兆瓦级别)。 将这三个维度的 100 倍增长相乘(100 × 100 × 100),恰好产生六个零的乘数效应,即总计一百万倍的 AI 智能增长将被注入到整体经济之中。 中美 AI 竞赛是一场极其关键的安全与经济竞争。如果美国输掉这场竞赛,将会对经济和军事(双重用途应用)产生重大影响,并极为不利地改变全球的权力平衡。 根据资料,这场竞赛的关键要素主要包括以下几个方面: * 持续的创新能力: 赢得竞赛的根本在于超越对手的创新能力,而这必须依靠私营部门和创始人们的推动。美国政府需要作为推动者,减少阻碍创新的过度监管(例如特朗普政府废除了拜登时期长达100页的繁琐行政命令),让科技企业放手发展。 * 算力基础设施与电力供应: 必须建设最大规模的 AI 基础设施,与中国形成巨大的算力差距。目前最先进的数据中心正从容纳10万块GPU迅速向30万块甚至上百万块扩张,电力需求也从几十兆瓦飙升至吉瓦(Gigawatt)级别。在能源供应方面,中国具有优势:美国电网过去十年基本停滞,而中国在过去十年将电网规模扩大了一倍,并持续增加电力供应。因此,美国迫切需要解决数据中心的建设许可和发电问题。 * 全球生态系统与市场份额: 技术竞争的赢家往往是建立最大生态系统和拥有最多合作伙伴的一方。美国需要让其技术栈成为全球标准,目标是占据全球80%的算力市场,绝不能让中国的华为在未来占据主导地位。美国需要改变过度限制技术出口(即限制技术“扩散”)的政策,积极与海湾国家(如沙特、阿联酋、卡塔尔)建立商业联系和数据中心合作。如果美国拒绝提供技术,只会将这些希望发展经济的资源大国推向中国。 * 本土制造能力与人才储备: 考虑到国家安全风险,美国需要将目前主要在海外的尖端芯片制造能力回流本土。同时,人力资本至关重要,需要在教育系统中普及 AI 的应用。 目前的竞争态势非常焦灼,打破了以往美国占据压倒性优势的错觉: * 技术差距极小: 过去有一种谬误,认为美国遥遥领先,因此可以随意对该领域进行监管而不用担心中国迎头赶上。但事实上,中国并没有落后数年,双方的差距非常接近,可能仅有 3 到 6 个月。 * “DeepSeek 时刻”打破幻想: DeepSeek 的崛起证明了中国企业的实力。虽然媒体报道其仅花 600 万美元完成训练是一个“神话”(该数字忽略了数亿美元的研发投入和价值至少十亿美元的硬件集群),但 DeepSeek 确实证明了利用“混合专家模型(Mixture of Experts)”架构和模型蒸馏技术,可以显著降低成本并打造出更小、更高效的 AI 模型。这一事件后,中国政府(CCP)也将 DeepSeek 视为国家冠军企业并大力推动其应用。 * 中国的独特优势: 除了前述的电力供应优势外,中国拥有庞大的人才库,全球约一半的 AI 研究人员是中国人。虽然中国在尖端芯片方面暂时落后,但华为等企业正在全力以赴地追赶。 * 美国面临内部过度监管的威胁: 美国当前面临的一个巨大风险是内部“AI 末日论者”推动的过度监管。目前有超过十亿美元的资金被用于支持这些宣传活动,全美有上千项旨在监管 AI 的法案正在各州立法机构推进。如果美国基于未经证实的恐惧而过早、过度地监管并扼杀 AI 创新,将削弱自身经济和国家安全,而中国并不会受到这些美国监管政策的约束,这可能导致中国开发出占主导地位的 AI 或 AGI。
精通Claude Code: Tips and Tricks全面概述了从自然语言自动生成代码的发展历程与前沿工具。这些文献首先梳理了从早期语义解析到现代深度学习模型的技术演变,并根据输入形式(如抽象描述或测试用例)对生成系统进行了分类。重点讨论了 Claude Code 等新型代理型 AI 助手,强调其在终端运行、处理长上下文以及通过自主迭代执行复杂任务的能力。此外,通过与 GitHub Copilot 的对比测试,指出两者在生成效率与逻辑深度上的各自优势。最后,文章还探讨了 AI 编程在降低开发门槛、提升生产力方面的潜力,并对其引发的安全、伦理及版权等挑战提出了反思。 使用 Claude Code 自动生成全栈应用需要将它视为一个“能在终端中自主执行任务的 AI 工程师”。为了获得最高效的结果,建议不要直接抛给它一个庞大模糊的指令,而是采用类似于“产品经理”指导初级开发者的工作流。 以下是使用 Claude Code 自动生成全栈应用的标准步骤与最佳实践: 1. 安装与初始化 Claude Code 是一个基于终端的命令行工具,不依赖特定的 IDE。 * 安装要求:确保你的系统已安装 Node.js。 * 执行安装:在终端中运行 npm install -g @anthropic-ai/claude-code。 * 启动:导航到你的空项目文件夹,在终端中输入 claude 并按回车即可启动向导并开始对话。你可以运行 /terminal-setup 来优化终端换行等设置。 2. 配置项目大脑:使用 CLAUDE.md 在让 Claude 生成代码前,先在项目根目录创建一个 CLAUDE.md 文件(你可以手动创建,也可以输入 /init 让它自动生成)。这个文件会被自动拉入 Claude 的上下文提示词中。 在里面记录全栈应用的核心规范,例如: * 技术栈选择:说明前端(如 React/Next.js)、后端(如 Express/Node.js)或数据库选型。 * 代码风格:如“优先使用 ES Modules”、“使用 Tailwind CSS 进行样式设计”。 * 常用命令:提供项目构建、测试和代码检查(lint)的 Bash 命令,让 Claude 知道如何自行验证代码。 3. 规划阶段:谋定而后动 (Explore & Plan) 不要直接让 Claude 一次性编写几万行的应用。你应该像产品经理一样,先花 15 到 20 分钟和它一起探讨需求并制定计划。 * 要求提供计划:输入类似“我想构建一个全栈应用,在编写任何代码之前,请先进行头脑风暴并制定一个分步计划,等我确认后再开始写代码”的指令。 * 开启深度思考模式:在提示词中加入 think 或 think hard 等字眼,触发 Claude 的扩展思考模式,这会分配更多计算预算让它在执行前彻底评估各种架构方案。 4. 实施与生成代码 (Vibe Coding) 在计划确认后,你可以让 Claude 按步骤自动实施。Claude 会自动调用编写文件、运行终端命令等工具。在这个过程中,可以使用以下高级技巧: * 测试驱动开发 (TDD):对于后端或复杂逻辑,要求 Claude 先根据预期输入/输出编写测试用例。让 Claude 运行这些测试(确保它们起初是失败的),然后再让它编写能让测试通过的实现代码,并不断迭代直到全部通过。 * 提供视觉目标 (针对前端 UI):你可以直接将设计图或 Mockup 图片拖拽进终端(或提供图片路径)。要求 Claude 编写前端代码,然后使用截屏工具验证,并自我迭代直到代码界面匹配你的设计图。 * 放手让它干 (Auto-accept 或 YOLO 模式):按 Shift+Tab 键可以开启自动接受编辑模式,这样你就无需手动批准每一次文件修改。 如果你在一个安全的隔离环境(如无网的 Docker 容器中),你可以通过 claude --dangerously-skip-permissions 命令启动,它会跳过所有权限检查,实现完全无人值守的全自动构建。 5. 调试与纠偏 (Course Correct) 当 Claude 在构建全栈应用时迷失方向或遇到错误,可以采取以下措施: * 随时打断:如果发现它生成方向不对,随时按 Escape 键中断它。连按两次 Escape 甚至可以回溯历史记录并修改先前的提示词。 * 高级调试技巧:如果遇到运行时错误,要求 Claude 在代码中添加全面的日志记录 (Loggers),然后将终端的输出结果粘贴或管道输入 (pipe) 给 Claude,直到它找到深层的原因。 * 保持上下文专注:在完成前端构建转入后端构建(或在不同的长任务之间)时,经常使用 /clear 命令清理聊天历史,这有助于防止上下文被无关信息填满从而干扰模型的注意力。 6. 自动版本控制 当某个功能节点完成后,你可以直接对它说“提交代码并推送到 GitHub”。Claude 擅长执行 Git 操作,它会自动查看更改的历史记录(git diff),写出恰当的提交说明 CLAUDE.md 是 Claude Code 用于为项目提供持久上下文的核心机制。它相当于 Claude 的“记忆库”或指令手册,在您启动 Claude Code 时会自动被读取并加入到提示词上下文中。通过合理配置这个文件,您可以大大减少重复解释项目背景的麻烦。 以下是通过 CLAUDE.md 提供持久上下文的具体方法和最佳实践: 1. 应该在 CLAUDE.md 中包含什么内容? 此文件没有固定的格式限制,建议保持简明易读。您可以将其视为给新入职开发者的指南,通常包含以下内容: * 常用的 Bash 命令:例如如何构建项目、运行代码检查 (lint) 或执行特定测试的命令。 * 代码风格与规范:例如说明“请使用 ES modules 语法”或“优先使用特定的 UI 组件库”。 * 项目架构与核心文件:指明项目布局、核心逻辑所在的文件位置以及重要的工具函数。 * 开发与协作准则:例如测试说明、开发环境配置(如使用特定版本的编译器)、分支命名规则、合并还是变基等代码仓库礼仪。 * 特殊情况:项目中已知的反常行为或特定的警告提示。 2. 文件的作用域与存放位置 您可以根据共享范围的需要,将文件放置在不同的层级位置,Claude 会根据您的工作目录进行层级化读取: * 团队共享 (项目根目录/CLAUDE.md):建议将其提交到版本控制(如 Git)中,以便团队所有成员共享这套规范和指令。 * 个人专属 (项目根目录/CLAUDE.local.md):如果您有只适用于自己工作流的指令,可以使用该名称并在 .gitignore 中忽略它。 * 全局默认 (~/.claude/CLAUDE.md):存放在您的主目录下,适用于您在任何项目中的所有 Claude Code 会话。 * 子目录专属:在大型项目或单体仓库(Monorepo)中,您可以在特定的子目录中放置嵌套的 CLAUDE.md 文件,当 Claude 处理该目录内的文件时,会自动按需读取相应的说明。 3. 如何创建与更新 CLAUDE.md? * 自动生成:在终端中运行 /init 命令,Claude 会自动帮您生成一个初始的 CLAUDE.md 文件。 * 通过 # 快捷键动态添加:在与 Claude 对话的过程中,如果您希望它记住某个新规则或经验教训,只需输入 # 键进入记忆模式,并告诉它(例如:“每次修改代码后都要运行 linter”),Claude 会自动将其写入最合适的内存文件里。 * 手动微调:由于 CLAUDE.md 直接成为提示词的一部分,您应该像优化提示词一样不断迭代它。如果发现 Claude 没有严格遵守,可以尝试添加强调词(如 "IMPORTANT" 或 "YOU MUST")来提高它的执行力。 4. 避免的陷阱 * 不要写入过长的内容:保持 CLAUDE.md 简短。如果文件过于庞大,不仅会不必要地消耗大量上下文 Token 和成本,还会降低 Claude 对核心指令的关注度。定期检查文件,移除不再需要的陈旧指令。 这里为您展示一个基于最佳实践的 TDD(测试驱动开发)模式生成后端 API 的提示词示例。您可以直接在 Claude Code 或其他交互环境中使用这个提示词: TDD 提示词示例 “我现在需要你使用 TDD(测试驱动开发)模式来帮我开发一个新的后端 API。请严格遵循以下步骤操作:第一步:编写测试 请根据我以下提供的输入/输出预期,编写针对该 API 的测试用例。请明确我们正在进行 TDD,因此即使该功能尚未存在,也绝对不要创建任何模拟(mock)的实现代码。 [在此处插入需求,例如:创建一个 POST /api/users 接口,接收包含姓名和邮箱的 JSON,验证邮箱格式,成功返回 201,失败返回 400 错误。]第二步:确认测试失败 编写完测试后,请直接运行这些测试。请告诉我测试结果,并确认它们当前是失败的。在这个阶段,明确要求你不要编写任何实现逻辑的代码。第三步:编写实现代码(需等待我的确认) 在看到测试失败后,等待我的确认。我确认后,请开始编写实际的 API 逻辑代码以使测试通过。在编写实现代码的过程中,请勿修改之前写好的测试代码。第四步:持续迭代 运行测试,如果测试仍未通过,请自动调整实现代码并再次运行,直到所有测试全部通过为止。” 为什么这个提示词有效? 根据 Claude Code 的官方最佳实践,AI 往往倾向于直接跳入代码实现的环节。为了让它严格遵守 TDD 工作流,这个提示词采用了以下策略: * 防止过度热心(避免 Mock 实现):明确告诉它正在进行 TDD 过程,这能有效防止 Claude 为了让测试跑通而提前生成虚假(Mock)的实现代码。 * 强制执行验证(确认失败):要求它在写实现代码前先运行并确认测试失败,这是 TDD 的核心步骤(Red 阶段),可以确保测试用例本身写得是有效的。 * 锚定目标(禁止修改测试):明确规定在编写实际功能时不能回头修改测试用例,强制它通过完善业务逻辑来达成目标,并不断自我迭代直到测试全绿。 💡 进阶技巧:将测试要求固化为自定义命令 如果您在项目中经常需要编写测试,可以使用 Claude Code 的自定义斜杠命令(Slash Commands)将复杂的测试要求保存下来。 您可以在项目的 .claude/commands/test.md 文件中预设类似以下的模板: 请为以下目标创建全面的测试:$ARGUMENTS测试要求:- 使用 Jest 工具- 将测试放在 __tests__ 目录中- 模拟数据库依赖- 测试所有主要功能、边缘情况和错误场景- 争取实现高代码覆盖率 配置好后,您以后只需在终端中输入 /test [您的API文件或组件名],Claude 就会自动按照您预设的最高标准去生成测试用例。
AI重塑未来:2025 GTC 加速计算与智能代理革命在这篇演讲中,英伟达首席执行官黄仁勋阐述了加速计算与人工智能如何共同驱动一场新的工业革命。他详细介绍了Blackwell架构等尖端硬件,以及支撑全球开发者生态系统的丰富软件库。黄仁勋强调,现代数据中心已转型为生产智能的AI工厂,能够通过数字孪生技术优化实体产业。此外,他还重点讨论了智能体AI、量子计算以及人形机器人的崛起,预示着技术将从语言生成跨越到物理世界的感知与行动。最后,他表达了对欧洲AI基础设施建设的支持,并重申了主权AI对于维护各国数据与文化资产的重要性。 “AI工厂”(AI Factory)是指一种新型的数据中心,它的唯一工作和核心目的就是生产“智能token”(即生成人工智能)。它就像是一个制造工厂,专门“制造”可以转化为各行各业生产力的智能。 它与传统数据中心的主要区别如下: * 核心功能不同:传统意义上的数据中心主要用于存储和检索文件。而AI工厂完全不以存储文件为目的,而是专门为了运行复杂的推理模型和生成token而建立的。 * 商业定位与价值不同:通常情况下,企业不会将传统数据中心视为直接创造收入的设施。相反,AI工厂被视为真正的“创收设施”,其运作逻辑类似于传统的实体制造工厂,能够通过源源不断地生产智能(token)来直接推动业务增长并产生收入。 * 设计理念与运作模式不同:虽然AI工厂因为内部装配了大量计算机,乍看之下与数据中心相似,但在系统的架构设计、制造规模、资源的调配以及运作方式上却有着本质的破局。例如,像Stargate这样的大型AI计算设施,在外观和规模上已经脱离了传统数据中心的形态,更像是一座庞大的工业界工厂,致力于产出海量的智能。 什么是代理型AI(Agentic AI)? 代理型AI(Agentic AI)代表了人工智能发展的一个巨大跨越,它从过去的“一次性(one-shot)”基础问答模型,进化为了具备完整智能循环的系统。黄仁勋指出,真正的智能在于感知、推理、规划任务、寻找解决方案并最终执行。代理型AI不仅能够理解复杂的指令,还能将复杂问题逐步分解,在解决问题的过程中进行自主推理、反思、研究新信息,甚至调用外部工具(例如使用计算器)来完成任务。 代理型AI主要分为两种表现形式:一种是在数字世界中运作的“信息机器人(Information Robots)”或软件代理;另一种则是拥有物理形态、能够产生运动并使用物理工具的“实体AI(Embodied AI)”或物理机器人。 它将如何改变我们的工作方式? 代理型AI将从以下几个维度深刻改变未来的工作模式: * 成为企业的“数字员工”: 代理型AI将像数字员工一样融入公司。企业不仅可以从外部平台(如OpenAI、Gemini、Copilot等)“雇佣”通用代理来协助处理安排行程、收集资料等日常事务,还会针对特定业务构建掌握专门技能和工具的“专业代理”。企业的IT部门将需要像管理人类员工一样,为这些AI代理办理“入职”,对它们进行微调、培训、评估、设置安全护栏(Guardrails),并不断提升它们的能力。 * 深度的自主问题解决能力: 以前你向聊天机器人输入一个提示词(Prompt),它可能只会生成几百个词的直接回答;而现在,你只需给代理型AI一个任务提示,它可能会在后台生成一万倍以上的词(Tokens)。这是因为它在回答你之前,会花大量时间“自言自语”、推理、尝试不同的路径并自我反思答案的质量,直到为你提供一个完整、优化的解决方案。 * 推动物理世界工作的自动化(机器人普及): 代理型AI的生成能力不再局限于生成文字、图像或视频,而是开始生成“运动”。过去,由于机器人编程极其困难,只有大型汽车制造厂等巨头才能负担得起机器人的部署。而现在,搭载了代理型AI的物理机器人(如人形机器人)可以通过观察人类或在虚拟孪生世界(如Omniverse)中学习物理规律和操作技能。这将使得中小型企业、街边商店、餐厅或普通仓库也能轻松部署和“教导”机器人工作,彻底改变实体行业的工作方式。 “智能Token”(Intelligent Token)是AI数据中心(即AI工厂)唯一负责生产的核心“产品”。在人工智能的语境中,Token是AI处理和生成信息的基本单位(例如单词、代码片段或动作指令)。随着AI向代理型AI(Agentic AI)进化,这些Token不再只是简单的一问一答,而是凝聚了感知、推理、规划和执行能力的“生产性智能”(Productive Intelligence)。 这些智能Token通过以下几种方式转化为实际的生产力: * 通过“深度思考”提供高质量解决方案: 具备推理能力的AI在给出最终答案之前,会在后台生成海量的Token来进行“自言自语”。它会将复杂问题逐步拆解、尝试不同的解决路径并进行自我反思。相比于过去几百个Token的简单回答,现在解决一个问题可能需要生成一万倍以上的Token。这种建立在庞大Token生成量基础上的深度推理,能直接为人类提供极其完善且高度优化的专业解决方案。 * 重塑企业业务与促进行业创收: AI工厂如同传统汽车制造厂一样,其生产出来的智能Token可以被重新定制和转化为适用于各个行业的生产力。例如,这些智能可以化身为数字员工(AI代理),直接被用于自动化临床试验、编写代码、协助语言翻译或进行工厂和数字孪生的规划与模拟。正因如此,源源不断制造Token的AI工厂本身就成为了能够直接创造收入的设施,推动着新的工业革命。 * 转化为物理世界的“运动”与机器人的行动力: 智能Token的生产力不再局限于屏幕上的图文。对于像人形机器人(例如Grek)这样的实体AI来说,AI工厂生成的Token就是它们的“食物”和运动指令。基于大模型生成的Token,机器人能够感知物理环境、规划行进路线、做出复杂的关节活动(如行走、抓取、使用工具等)。这意味着智能Token能够直接驱动物理世界的自动化工作,让原本难以编程的机器人广泛应用于中小企业、餐厅甚至家庭中。 代理型AI(Agentic AI)之所以需要比普通AI(如过去的基础问答模型)庞大得多的算力,核心原因在于它的工作模式从简单的“一次性回答(one-shot)”跨越到了极其复杂的“自主推理与思考循环”。 具体体现在以下几个方面: * 生成海量的“内部Token”(自言自语): 普通的聊天机器人在接收到一个提示词(Prompt)后,通常只会直接生成几百个词(Tokens)的回答。而当你向代理型AI输入一个单一的任务提示时,它为了解决问题,可能会在后台生成多达一万倍的Tokens。 * 复杂的逻辑推演与多路径尝试: 代理型AI本质上是一个“推理模型”。在给你最终答案之前,它会花大量时间“自言自语”,将复杂问题按步骤进行拆解。它会尝试许多不同的解决路径(例如运用“思维链”或“思维树”的方法),并在海量的信息中进行探索。 * 持续的自我反思与优化: 它能够对自己的解答进行反思。它会审视自己生成的答案并自我提问:“这是一个好答案吗?我能做得更好吗?”,然后它会推翻重来,回去继续思考,直到得出最优解。 正是因为代理型AI在给出最终结果之前,需要经历这种反复的规划、推理、尝试和自我反思,导致其计算量呈指数级爆发。这也是为什么传统的芯片架构难以满足需求,迫使业界必须开发出像Grace Blackwell这样专为推理和思考而设计的、性能实现巨大跨越的新一代“思考机器(Thinking Machine)”。 在提供的资料中,**“思维链”(Chain of Thoughts)和“思维树”(Tree of Thoughts)**被指代为新一代代理型AI(推理模型)在解决复杂问题时尝试不同逻辑路径的推演方法。 与传统的“一次性(one-shot)”生成的聊天机器人不同,具备推理能力的AI在给出最终答案前,会花大量时间“自言自语”,将复杂问题一步一步地进行详细拆解。在这个过程中,AI会运用思维链、思维树(包括从N个结果中选择最佳的“best of n”策略)等路径进行探索,并不断反思自己的答案。模型会自我拷问:“这是一个好答案吗?我能做得更好吗?”,如果可以更好,它就会推翻重来,回去继续深入思考和推理。 (请注意:以下关于这两种技术具体运作机制的详细定义属于外部补充信息,并非来自您提供的会议演讲资料,建议您在需要时进行独立验证。) * 思维链(Chain of Thought, CoT): 这是一种引导大语言模型进行线性逻辑推理的技术。它要求AI不要直接从“问题”跳跃到“答案”,而是把复杂的难题拆解为一步接一步的中间推理过程(即按照“步骤A -> 步骤B -> 步骤C -> 结论”的单行道进行)。这种展示思考过程的方法,大大降低了AI在复杂数学或逻辑计算上的出错率。 * 思维树(Tree of Thoughts, ToT): 这是思维链的进阶架构,代表了多路径并行探索。如果说思维链是一条线,思维树就像是一个拥有许多分叉的迷宫。在遇到极度复杂的问题时,AI在每一个推理节点上都会构思出多种可能的下一步,形成一棵“选择树”。它会评估不同分支的成功概率,并在某条路径行不通时进行“回溯”(退回到上一步的交叉口),去尝试另一条未曾探索的分支,直到找出最优解。 综上所述,结合我们之前的对话,正是因为AI在底层运用了思维链和思维树等深度推理架构,它才需要在后台经历反复的规划、尝试和自我反思,从而生成比过去多出成千上万倍的“智能Token”。这也直接解释了为何整个科技行业必须制造出像Grace Blackwell这样性能实现30到40倍跨越的“思考机器”,来支撑这种指数级爆发的算力需求。 根据黄仁勋的演讲,英伟达的 Grace Blackwell 芯片架构具有多项革命性的创新,旨在满足下一代人工智能(特别是代理型AI)呈指数级爆发的算力需求: * 专为推理设计的“思考机器(Thinking Machine)”: 过去的芯片主要应对“一次性(one-shot)”的问答生成,而 Grace Blackwell 是专门为具备推理、规划和深度反思能力的代理型AI设计的。它能够支撑模型在后台进行“自言自语”和多路径探索时产生的海量Token,打破了摩尔定律的常规演进速度,实现了单代产品相比上一代(Hopper架构)30到40倍的性能跨越。 * 化身为“一台巨型虚拟GPU”: 相比于单颗GPU,Grace Blackwell 系统的设计理念是将海量组件整合在一起,通过全新的网络技术和极低功耗的高能效互联技术(SerDes),使成百上千的芯片和系统联合起来,表现得就像一个巨大的虚拟GPU。 * 深度的CPU-GPU集成与全面液冷: 传统的AI超级计算节点通常将CPU托盘和GPU系统分开,而一个 Grace Blackwell 计算托盘将CPU与GPU直接相连并高度集成(例如包含2个CPU和4个GPU),且采用了全面的液冷散热设计,单节点性能就超越了过去庞大的整个Hopper系统。 * 突破性的 NVLink 铜缆骨干(NVLink Spine): 为了解决计算“向上扩展(Scaling up)”的极度困难,英伟达打造了革命性的 NVLink 互联系统。其核心是一条100%由纯铜同轴电缆制成的骨干网络,它将所有的 GPU 直接连接在一起。这使得 144 个 Blackwell 芯片晶圆能够同时进行无阻塞通信,其背板带宽达到了惊人的 130 TB/秒,这甚至超过了全球互联网峰值流量的数据率。 * 全面加速量子计算: Grace Blackwell 200 芯片不仅用于传统AI,它还全面支持并加速了英伟达的量子计算算法栈(CUDA-Q),为量子与经典混合计算带来了令人难以置信的速度提升。
MCP 标准化AI数据集成深入探讨了模型上下文协议 (MCP),这是一种由 Anthropic 推出的开放标准,旨在简化 AI 模型与外部数据及工具之间的集成。这些源码详细介绍了 MCP 如何通过标准化接口取代零散的 API 对接,使 AI 智能体能够自主调用本地或远程服务,从而执行复杂的任务流。微软等行业巨头已将该协议整合进其 AI 生态系统和开发者认证体系中,以加速企业级的 AI 转型。尽管 MCP 在提升上下文感知能力和工具互操作性方面具有巨大潜力,但资料也指出了其在身份验证、多租户支持及复杂工作流编排等方面面临的挑战。为了弥补这些不足,诸如 Generative MCP 类的进阶方案正在涌现,致力于通过事件驱动和多模型协作来增强其在企业环境中的实用性。总而言之,这些内容共同描绘了 MCP 作为未来 AI 驱动工作流核心基础设施的发展蓝图。 模型上下文协议 (Model Context Protocol, 简称 MCP) 是一种于 2024 年 11 月推出的开源标准协议,旨在标准化 AI 模型(尤其是大语言模型 LLM)与外部应用程序、数据源和系统之间的交互方式。它的作用类似于 API 在互联网软件通信中扮演的统一通用语言角色,为 AI 模型的数据获取、工具调用和执行提供了一个通用接口。通过 MCP,AI 代理能够安全、实时地访问本地和远程的数据系统(如数据库、API、文件系统等),从而跨系统协作执行复杂的任务。 MCP 的工作原理 MCP 采用以代理为中心(agent-centric)的执行模型,其设计灵感来源于语言服务器协议(LSP),但专门为支持自主 AI 工作流而设计。它通过在 AI 应用程序(作为“MCP 客户端”,如 Cursor 或是 Claude Desktop)与外部服务(作为“MCP 服务器”)之间建立通信标准,主要为 AI 提供以下三个核心维度的上下文: 1. 工具 (Tools):这是允许 AI 模型在外部世界中采取的具体动作或操作。基于当前的任务上下文,AI 代理可以自主决定使用哪些工具、调用的先后顺序,以及如何将它们串联起来完成任务。这些工具的范围非常广泛,既可以是执行只读的 SQL 命令、发送电子邮件,也可以是控制物理设备(例如 3D 打印机)。 2. 资源 (Resources):这是提供给模型的原始数据或上下文内容(如文件、实时数据等)。这些数据可以被直接喂给模型进行分析,或者集成到检索增强生成 (RAG) 管道中。 3. 提示 (Prompts):这相当于预定义的提示模板。用户可以通过简单的交互(例如斜杠命令)触发这些模板,快速将特定的结构化指令或上下文输入到模型的上下文窗口中,供用户进一步编辑或直接使用。 在实际的运行生态中,开发者只需针对各种企业应用、开发者工具或本地环境构建或生成“MCP 服务器”,AI 客户端就能无缝接入这些能力。通过在一个客户端上同时安装多个 MCP 服务器,用户可以将任何 AI 客户端转变为一个“万能应用”。例如,在一个客户端中,AI 可以同时调用一个服务器生成前端 UI 代码,再调用另一个图像生成服务器来为该 UI 制作配图。此外,MCP 还内置了**“人机协同(human-in-the-loop)”**功能,允许人类在 AI 执行过程中提供额外数据或对关键操作进行审批把关。 模型上下文协议(MCP,Model Context Protocol)正在从根本上改变 AI 代理与外部工具和数据的交互方式。它将过去碎片化、定制化的开发模式转化为标准化的自主交互网络,具体体现在以下几个关键方面: 1. 提供统一的标准化接口 在 MCP 出现之前,AI 代理与外部系统的集成极度碎片化,开发者必须为模型需要操作的每一个系统单独编写特定的业务逻辑和定制化的连接器。MCP 被视为“AI 领域的 API”,它提供了一个通用的开放标准,使 AI 模型能够安全、高效地连接到各种本地或远程的数据源(如数据库、API 和文件系统)。 2. 确立三大核心交互维度 MCP 标准化了 AI 模型获取上下文和执行操作的途径,主要暴露以下三种能力: * 工具 (Tools): 允许模型在外部世界采取具体行动的指令或功能。 * 资源 (Resources): 供模型摄取和读取的原始数据、文件或上下文信息。 * 提示词 (Prompts): 用户可以直接调用的提示词模板,用于快速将特定指令放入上下文窗口中。 3. 实现以代理为中心的自主执行 与传统的被动响应协议(如语言服务器协议 LSP)不同,MCP 是专为自主 AI 工作流设计的。基于 MCP 提供的上下文,AI 代理可以自主决定应该使用哪些工具、使用的先后顺序,以及如何将多个工具串联起来完成复杂任务。同时,MCP 也支持“人类在环 (human-in-the-loop)”机制,允许人类在执行过程中提供额外数据或进行审批。 4. 打破数据孤岛,实现多系统无缝协同 MCP 使得 AI 代理能够实时与多个数据源交互,从而执行极其复杂的任务。例如,在企业级数据环境中,MCP 允许 AI 应用对存储在不同数据库和业务系统中的数据执行“联邦查询”,就仿佛它们是一个单一的底层数据库,从而极大降低了企业采用 AI 的门槛。 5. 将 AI 的触角延伸至物理与创意世界 通过 MCP,AI 代理不再仅仅是一个输出文本的聊天框,而是可以直接操作外部环境的实体。开发者已经通过构建 MCP 服务器,让大模型成功控制 3D 打印机、操作音乐合成器,甚至通过自然语言指令直接在 Blender 等软件中编写脚本并生成 3D 场景。 6. 推动工具的动态发现与按需调用 目前开发者仍然需要手动寻找和配置 MCP 服务器,但生态系统正在快速演进。随着 MCP 市场和即将推出的“注册中心 API (Registry API)”,未来的 AI 代理将具备动态发现能力——模型可以在执行任务时,自主去搜索并拉取它当时所需的额外服务器和工具,从而形成更加闭环和高度自主的智能工作流。 在企业中部署 MCP(模型上下文协议)面临的挑战 尽管 MCP 在标准化 AI 与外部工具交互方面展现了巨大潜力,但在复杂的企业级生产环境中,其部署仍面临以下显著挑战: * 缺乏对复杂和多步工作流的编排能力:企业工作流(如员工入职)通常是长时间运行、有状态且跨多个系统的多步操作。目前的 MCP 缺乏内置的工作流概念来管理这些具有依赖关系的任务,难以原生支持任务的恢复、重试或基于事件驱动的触发器。 * 无法理解应用专属的数据模型与上下文:MCP 缺乏对特定应用数据模型的内在了解。例如,它无法自动理解不同企业中特定术语(如 Jira 中的自定义状态,或 HR 系统中的本地区域代码)的含义,这导致开发者必须手动处理这些细微差别,无法做到开箱即用。 * 身份验证与细粒度授权机制不完善:MCP 目前尚未定义客户端与服务器之间、或与第三方 API 交互的标准身份验证框架。此外,MCP 缺乏内置的权限模型,访问控制通常停留在会话级别(完全允许或完全限制),难以满足企业多租户部署和精细化权限管理的需求。 * 过度依赖单一 LLM:企业在处理复杂问题时通常需要结合多个大语言模型(LLM)的优势(权衡成本、延迟或领域专长),但现有的 MCP 通常一次只能绑定一个 LLM。 * 安全、合规与托管限制:企业级 AI 必须在严格的边界内运行,以确保数据隐私(如 PII 数据不离开云边界)和合规性。目前的 MCP 与模型路由、治理或合规区域无关。同时,多租户架构下的服务器托管、控制平面与数据平面的分离也是目前尚未解决的基础设施挑战。 * 高门槛的开发与调试:MCP 开箱即用的函数库非常有限,企业需要编写大量自定义代码来适配现有的应用和数据源。同时,由于不同客户端存在差异且缺乏标准的追踪机制,跨本地和远程环境调试 MCP 服务器极为困难。 MCP 未来的发展方向 为了克服上述局限并实现企业级的大规模采用,MCP 的生态系统正在向以下几个关键方向演进: * 向“生成式 MCP”与平台化演进:未来的 MCP 将从单纯的协议转变为可编程平台(如生成式 MCP)。这种平台能够直接通过解析应用程序的 OpenAPI 或 Swagger 规范来自动生成函数库、处理分页和授权,从而大幅减少手动集成的工作量。 * 引入标准化网关(Gateway):随着部署规模的扩大,网关将作为集中层,处理身份验证、授权、流量管理、负载均衡以及工具的动态路由。这将大幅简化客户端与服务器的交互,并提升多租户环境下的安全性和可观测性。 * 服务器动态注册与发现(Registry API):Anthropic 正在开发注册表和发现协议。这将允许 AI 代理不仅依赖于预设的工具,还能在需求发生时,动态搜索并引入新的 MCP 服务器,从而实现更高度的自治。 * 原生支持长运行任务与人工参与(Human-in-the-loop):随着模型变得越来越智能,MCP 将引入对长时间运行任务的支持,把状态化执行转变为一等公民概念。同时,还会强化“启发(Elicitation)”功能,使服务器能在需要时主动向用户询问和收集更多信息。 * 多模型融合与事件感知编排:未来的解决方案(如 EmaFusion 和 GWE)将支持多模型动态路由,根据任务需求在多个开源和闭源 LLM 之间智能切换。此外,系统将原生支持事件驱动,使得应用系统中的事件(如系统中新增了一个工单)能够实时触发 AI 代理采取行动。 * 机器可读文档将成为核心基础设施:企业将开始采用如 llms.txt 等机器可读格式编写 API 文档,这使得 AI 代理可以直接基于文档实时生成和执行 MCP 构件,彻底改变传统 API 的使用和变现方式。
黄仁勋:英伟达的极端协同设计与AI进化之路这份文本摘录自 Lex Fridman 对英伟达(NVIDIA)首席执行官黄仁勋的采访,深入探讨了该公司在 AI 革命中的核心角色。黄仁勋解释了英伟达如何从单一的芯片制造转向极端协同设计,通过整合硬件、软件和数据中心架构来超越传统的计算限制。他详细回顾了将 CUDA 引入消费级显卡的豪赌,这一决策虽曾带来财务危机,但最终为现代深度学习奠定了基础。对话还涵盖了 AI 缩放法则的演进,包括合成数据的使用、推理能力的提升以及代理式 AI(Agentic AI)的兴起。此外,黄仁勋分享了其“光速”第一性原理的领导哲学,并讨论了全球供应链、能源效率以及 AI 对未来就业市场的积极重塑。综上所述,这些材料展现了英伟达如何通过前瞻性的工程布局和生态构建,将自身打造为驱动全球智能化的**“AI 工厂”**。 黄仁勋预测的 AI 四大规模定律(Scaling Laws)分别是: 1. 预训练扩展定律 (Pre-training scaling law):模型的规模越大,投入的高质量训练数据越多,最终训练出的 AI 就越聪明。 2. 后训练扩展定律 (Post-training scaling law):随着 AI 能够结合基础事实(ground truth)生成海量的合成数据,后训练阶段的数据规模将持续扩大。这意味着模型训练不再受限于人类生成的数据量,而是越来越受限于计算能力(Compute),因为未来绝大多数用于训练的数据都将是合成的。 3. 测试时扩展定律 (Test time scaling law / 推理扩展):与预训练阶段的“阅读和记忆”不同,推理(Inference)本质上是更复杂的“思考”过程,涉及到推理、分解问题、规划和搜索。因此,测试时阶段的扩展是极其依赖密集计算的。 4. 智能体扩展定律 (Agentic scaling law):这被黄仁勋称为“AI的乘法效应”。在测试阶段,具有主体性的 AI(智能体)不仅会去检索数据库、使用工具,还能快速派生出大量的子智能体(sub-agents),从而组建庞大的数字工作团队。 这四个定律并不是孤立的,智能体系统在运行中会创造出大量优质的新数据和新经验,这些数据随后会被输送回预训练阶段进行记忆和泛化,再进入后训练阶段进行微调,从而形成一个不断自我强化的闭环,而推动这一切智能持续扩展的唯一核心就是计算能力 (Compute)。 根据提供的访谈资料,黄仁勋(Jensen Huang)在管理英伟达(NVIDIA)的过程中,展现出了极具独创性的领导哲学,以及对人才培养和未来工作形态的深刻洞察。以下是核心要点: 一、 独特的领导与组织哲学 1. 极致扁平化与“极限协同设计” (Extreme Co-design)黄仁勋拥有大约60名直接下属,但他从不进行传统的一对一会议(One-on-ones)。他的做法是将问题直接抛给整个管理团队,让所有人共同攻克。在讨论如散热、网络或电源分配等具体组件时,所有专家都在场旁听并随时提出跨领域的意见。他认为公司的组织架构不应是千篇一律的层级式,而应服务于公司产出的产品和所处的环境。 2. 潜移默化地塑造团队信念 (Shaping Belief Systems)黄仁勋不赞成传统的“突然宣布重大战略”的领导方式。相反,当他捕捉到新趋势时,他会通过每天与员工、管理层和董事会的持续沟通,一步步向他们分享外部信息、新发现和工程突破,以此来“塑造他们的信念系统”。因此,当他最终宣布重大决策(如全面转向深度学习或收购Mellanox)时,团队往往已经达成了100%的共识,甚至会觉得“你怎么花了这么长时间才决定”。 3. “光速”法则与第一性原理 (Speed of Light & First Principles)黄仁勋推崇一种被称为“光速”的思考方法,即凡事都要从第一性原理出发,思考物理学允许的极限在哪里,并以此作为衡量一切的标准(包括内存速度、成本、制造周期等)。他不喜欢仅仅在现状基础上做“渐进式改进”(continuous improvement),而是要求团队将问题清零,探究在当前条件下从头开始到底能做到多快多好。 4. 系统性遗忘与孩童般的心态 (Systematic Forgetting & Resilience)在面对巨大的压力、不确定性和失败时,黄仁勋的策略是将问题拆解,并迅速与团队分担压力。他强调领导者需要具备**“系统性遗忘”(systematic forgetting)的能力,即迅速放下过去的挫折、尴尬和羞辱,将注意力集中在下一个目标上。同时,他面对巨大挑战时总会抱有一种“这能有多难?”(How hard can it be?)**的孩童般的心态,不去过度预想前路的痛苦,从而保持前进的勇气和韧性。 5. 极度的公开透明与谦逊黄仁勋习惯于在众人面前公开进行推理和思考,他认为这是一种展示谦逊的方式。他向团队展示自己得出结论的每一步逻辑,并允许员工不认同他的推理步骤。这种允许思想碰撞的文化,使得公司能够集思广益,共同寻找最佳路径。 二、 对人才培养与未来工作的看法 1. 最好的继任计划是持续的知识传递黄仁勋明确表示自己不相信传统的“继任计划”(succession planning)。他认为,关心公司未来的最佳方式,是每天尽可能快地将自己的知识、信息、洞察和经验传递给身边的每一个人。他在公司的每一个会议都是“推理会议”,目的是不断赋能员工,提升周围所有人的能力。 2. 区分工作的“目的”与“任务” (Purpose vs. Tasks)面对人工智能带来的失业焦虑,黄仁勋向人才传递了一个关键观念:工作的目的(purpose)和完成工作所使用的任务/工具(tasks/tools)是两回事。例如,软件工程师的任务是写代码,但其目的是解决问题、创新和团队协作。AI可以自动化编程任务(通过自然语言说明生成代码),但不仅不会淘汰工程师,反而会让每一个懂AI的人(无论是木匠、水管工还是会计师)都成为更高级的架构师和问题解决者。 3. 强烈呼吁全面掌握 AI 工具在人才培养和招聘导向上,黄仁勋非常明确:如果要在不懂AI的人和精通使用AI的人之间做选择,他一定会雇佣精通AI的人。他建议所有的大学生和各行各业的专业人士都必须成为使用AI的专家,因为AI能够极大提升个体的生产力和艺术创造力。 4. “智力”将商品化,但“人性”才是超级能力在AI时代,黄仁勋认为“智力”(intelligence)——即感知、理解、推理和规划的系统能力——最终将成为一种可获得的商品。相反,真正的“超能力”(superhuman powers)是属于“人性”(humanity)的特质:品格、同理心、慷慨、承受痛苦的毅力以及决心。他鼓励人们不要因为AI的普及而感到焦虑,因为AI只是工具,而人类独有的精神和人性之美将被进一步彰显和庆祝。 英伟达的**“极致协同设计”(Extreme Co-design)**是其从单一芯片设计向机架级(rack scale)甚至数据中心级系统设计演进的核心战略,也是推动当前AI革命的关键引擎。 为什么需要“极致协同设计”? 随着AI模型规模的指数级增长,计算问题已经无法被塞进一台计算机并由单个GPU来加速。当需要将工作负载分配到成千上万台计算机上以实现百万倍的加速时,单纯提升计算速度是不够的。 根据阿姆达尔定律(Amdahl's Law),如果计算部分只占总工作负载的50%,即使将计算速度提升一百万倍,总工作负载的提升也仅有两倍。此外,由于摩尔定律和登纳德缩放定律(Dennard scaling)已经放缓,单靠芯片工艺升级的红利正在消失。因此,必须对网络、数据分片、流水线拆分等所有干扰效率的环节进行分布式计算的联合攻坚。 极致协同设计涵盖什么? 极致协同设计旨在对整个计算和软件堆栈进行全面优化: * 硬件架构全方位覆盖: 远超单纯的GPU设计,如今的优化涵盖了GPU、CPU、内存、网络、存储、电源、散热、机架(rack)、计算单元(pod)乃至整个数据中心。 * 软硬件的深度融合: 优化不仅停留在硬件物理层,更横跨了从底层架构到芯片、系统、系统软件,一直到最上层的算法和应用程序。 英伟达是如何实施的? 黄仁勋构建了一套独特的企业运作和工程设计模式来实现这一战略: 1. 全局视角的集体攻坚: 黄仁勋拥有60多名直接下属,涵盖了内存、CPU、光学网络、GPU、架构和算法等领域的顶尖专家。他不进行一对一会议,而是将问题抛给整个管理团队共同解决。在讨论诸如“散热”这类具体问题时,负责电源或内存的专家也会旁听并提出意见,确保任何单点设计都能完美契合整个系统的复杂需求。 2. 基于“光速”(Speed of Light)的第一性原理: 在工程设计中,英伟达的每一个环节都会与“光速”(代表物理学能达到的极限)进行对比测试,包括内存速度、计算能力、功耗和成本等。在明确了系统追求高吞吐量或低延迟的物理极限后,团队从全局出发做出合理的妥协和权衡,确保系统不仅复杂,还能兼顾“尽可能简单”的原则。 3. 前瞻性预测与软硬协同适配: AI算法大约每六个月就会发生一次重大变革,而硬件系统的开发周期长达三年。英伟达通过与全球顶尖AI实验室合作,预判未来两三年的技术走向。例如,为了应对“混合专家模型(MoE)”的大规模推理需求,他们设计了将整个计算域无缝连接的NVLink 72架构;而为了迎接未来“AI智能体(Agents)”高频调用工具的需求,他们又迅速推出了内置存储加速器和Vera CPU的Vera Rubin机架。 极致协同设计如何推动AI革命? 1. 实现算力的百万倍跨越: 在过去十年中,如果仅遵循摩尔定律,计算能力大概只能提升100倍。而通过极致协同设计,英伟达成功将计算规模和性能提升了100万倍。 2. 突破能耗瓶颈,大幅降低AI使用成本: 生成式AI推理阶段(让AI思考和推理)需要极其密集的计算,能耗是主要制约因素。极致协同设计每年能够将“每瓦每秒生成的Token数量”(tokens per second per watt)提升数个数量级。这使得尽管超级计算机的造价在上升,但生成Token的单价却以每年十倍的速度在暴降。 3. 催生“AI工厂”时代的到来: 协同设计使得英伟达创造出了世界上最复杂的计算机系统(例如单个Vera Rubin pod就包含1200万亿个晶体管和60 EFLOPS算力)。这直接推动了计算机的本质发生转变:从过去基于检索的“数据仓库”,演变为能够实时生成高价值智能(Tokens)的“AI工厂”,彻底改变了千行百业的生产力模式。 在英伟达的工程哲学中,“光速”(Speed of Light)原则不仅是一个口号,而是一种自三十年前沿用至今的思维方式和系统设计方法论。黄仁勋通过以下几个核心层面,利用这一原则来推动“极致协同设计”和系统优化: 1. 重新定义“光速”:将物理极限作为唯一标尺在英伟达,“光速”并不单指速度,它是黄仁勋用来指代**“物理学允许的极限”(physical limits)**的代名词。基于第一性原理,英伟达的团队在开展任何工作之前,都会强制要求自己思考事物的物理极限在哪里。他们会将方方面面的指标与这个“光速”进行对比测试,这不仅包括内存速度、计算速度和功耗,甚至还延伸到了成本、时间、研发精力、所需人员数量以及制造周期等运营指标。 2. 探究单点极限,再做全局妥协系统设计往往充满了矛盾与取舍,例如一个追求极低延迟的系统和一个追求极高吞吐量的系统,其底层架构是截然不同的。英伟达的做法是:首先分别找出实现高吞吐量和低延迟各自对应的“光速”(理论极限)在哪里,随后在考虑整个系统时,基于这些极限做出明智的妥协和权衡。 3. 摒弃“渐进式改进”,要求问题清零黄仁勋明确表示,他不喜欢传统的“持续改进”(continuous improvement)模式。例如,如果当前完成一项任务需要74天,传统的做法可能是努力将其缩短到72天。而在“光速”原则下,他要求团队将问题清零,回到第一性原理思考:如果完全从头开始构建,物理学允许的最短时间是多少?
Google ADK 开发者必知的五大智能体技能设计模式这篇文章介绍了谷歌代理开发工具包 (ADK) 的五种核心设计模式,旨在帮助开发者超越基础的格式设定,转而优化智能体内部的逻辑架构。工具封装器 (Tool Wrapper) 能够为智能体提供特定库的专业知识,而生成器 (Generator) 则通过模板确保输出结构的高度一致。审核器 (Reviewer) 模式通过独立的评估准则实现代码审查的自动化,反转 (Inversion) 模式则让智能体通过主动提问来精准收集需求。最后,流水线 (Pipeline) 模式通过严格的步骤和准则强制执行多环节的工作流。这些模式可以灵活组合,使开发者能够构建出比传统单一提示词更高效、更可靠且具备上下文感知能力的智能体系统。
AI 智能体协议开发者指南这些指南详细介绍了如何通过标准化协议与技能框架来增强人工智能代理(AI Agents)的能力。谷歌开发者博客重点讨论了 MCP、A2A 和 UCP 等六种核心协议,旨在解决数据连接、多代理协作、商务交易及界面呈现的统一标准问题。与此同时,Anthropic 的文档阐述了如何为 Claude 构建“技能”文件夹,通过 YAML 元数据和 Markdown 指令将复杂的业务逻辑与 MCP 外部工具相结合。这些资源共同构成了开发者构建自动化工作流的蓝图,强调了渐进式披露和互操作性在提升 AI 效率中的重要性。通过采用这些规范,开发者能够将原始的模型能力转化为具备专业领域知识和可靠执行力的智能应用。