观点洞察与事件 Insight & Event

宏观趋势、战略判断与关键事件。聚焦"为什么重要"而非"发生了什么"

NVIDIA GTC 2026：物理 AI 元年正式开启 — Jensen Huang 在圣何塞主会场宣布了 Vera Rubin 芯片路线图、Cosmos 3 世界基础模型、与 Uber 28 城 L4 自动驾驶合作等。GTC 不再只是 GPU 发布会，而是 AI 产业链整合的标志性节点。推理侧（Inference）已占 AI 计算开支的 55%+，今年底有望超过 70%。为什么重要： 算力竞赛从训练转向推理，意味着"持续服务"而非"一次训练"才是新战场。x.com
Title Unavailable | Site Unreachable
LiveX | The World’s Leading Physical AI & Human-Interface Platform
比亚迪（BYD）
吉利（Geely）
**联想（Lenovo）
华硕（ASUS）
技嘉（GIGABYTE）
微星（MSI）
和硕（Pegatron）
仁宝（Compal）
英业达（Inventec）
神达（MiTAC Computing）
广达云技术（QCT）
纬创（Wistron）
纬颖（Wiwynn）
华擎机架（ASRock Rack）
富士康（Foxconn / 鸿海）

Anthropic 同一周推三项战略举措 — 发布 Anthropic Institute（AI 社会影响研究）、投入 1 亿美元 Claude Partner Network（企业生态）、开放 Claude 应用市场。Anthropic 在技术领导力之外正快速补齐商业化与社会信任两条腿。为什么重要： 这是一家 AI Safety 公司向"全栈 AI 平台"转型的清晰信号。[What 81,000 people want from AI \ Anthropic](www.anthropic.com

LLM 正在自主训练更小的 LLM——"Vibe Training"时代 — Karpathy 与 Yi Tay 公开讨论模型自主 debug 和改进代码的"AutoML 时刻"，AI 辅助 AI 训练正从实验走向实践。为什么重要： AI 研发的生产效率将被 AI 本身加速，行业发展速度可能再次量级跃升。x.com

阿里巴巴正式成立 Alibaba Token Hub（ATH）事业群 — 将 Qwen 大语言模型系列、悟空图像生成模型等核心 AI 资产整合至同一战略事业群，统一 Token 经济与 AI 产品矩阵。为什么重要： 阿里将分散的 AI 资产统一建制，信号明确——ATH 是对标 OpenAI/Anthropic 的一体化 AI 平台战略。

LangChain 创始人论文——EPD 瓶颈从"实现"转向"评审") — LangChain 创始人 Harrison Chase 的核心观察：代码越来越好写，但评审/验证速度跟不上，以前一个功能需要很多人写代码，现在变成了写代码的人太多、评审来不及。为什么重要： 这是 AI 改变研发流程的关键转折，Reviewer 而非 Coder 才是新稀缺资源。

模型 Model

AI基础设施 AI Infra

底层技术动态：算力芯片、分布式训练、推理优化、存储网络架构与成本效率

NVIDIA GTC 2026：Vera Rubin 路线图与 1 万亿美元订单 — Jensen Huang 透露 Blackwell 与 Vera Rubin 合计订单超 1 万亿美元，Vera Rubin 预计年底交付，能效比 Grace Blackwell 提升 10 倍。新收购 Groq LPU 预计 Q3 出货。

基础模型 Foundation Model

LLM最新进展：新模型发布、架构创新、上下文扩展、后训练优化、开源vs闭源生态

Google Gemini 3.1 Pro：13/16 主流 Benchmark 第一 — ARC-AGI-2 得分 77.1%，支持 100 万 token 上下文，原生多模态。定价 $2/M 输入 token，前沿性能以商品化价格落地。Gemini 3.1 Flash-Lite 速度提升 2.5×，仅 $0.25/M 输入 token。

DeepSeek V4 传言：1 万亿参数，原生多模态 — 3 月 11 日，OpenRouter 出现神秘 "Hunter Alpha" 1T 参数模型，业界推测为 DeepSeek V4 内测版。同期发布 DeepSeek-Prover-V2，专攻 Lean 4 形式化定理证明。原来是MiMo

MiroMind MiroThinker-1.7 & H1：可验证推理架构 — MiroMind 发布面向法律与多步推理的模型，采用"以验证为核心"的架构，3 月 16 日发布。

AttnRes：Kimi 发布注意力残差架构技术 — 月之暗面（Kimi）提出 AttnRes（Attention Residual）架构改进，通过在注意力层引入残差连接路径优化长上下文信息流，在长序列建模任务中表现出效率与精度提升。

Recursive Language Models：LLM 自我参照生成的新架构探索 — Alex Zhang（MIT）探讨让语言模型在生成过程中递归调用自身的架构思路，通过自我参照机制实现更深层的推理链，理论上可突破单次 forward pass 的推理深度上限。

自进化 x.comMiniMax-M2.7
AutoHarness
SkillNet
SkillCraft
Meta-Evolution

多模态模型 MultiModality Model

跨模态理解与生成：视觉-语言、视频生成、语音交互、认知可控生成、原生多模态架构

Google Gemini Embedding 2：首个统一跨模态向量空间 — 将文本、图像、视频、音频、PDF 统一嵌入同一向量空间，大幅简化多模态搜索与检索任务。

NVIDIA Cosmos 3：世界基础模型统一合成生成与行动仿真 — 首个将合成世界生成、视觉推理与动作仿真统一的世界基础模型，为机器人 Sim2Real 迁移提供关键基础设施。

具身模型 Embodied AI

AI与物理世界交互：机器人基础模型、自动驾驶、空间智能、动力学感知、Sim2Real迁移

Uber 联手 NVIDIA Drive AV：2028 年 28 城 L4 自动驾驶 — 日产/比亚迪/吉利/现代均在 NVIDIA Drive Hyperion 上开发 L4 车辆，自动驾驶商业化时间表再次提前。

其他模型 Misc Model

如世界模型，机器视觉模型等

数据 Data & Context Engineering

数据燃料：合成数据、数据清洗、长上下文工程、RAG、知识图谱、领域数据集

AI安全和可解释性 AI Security & Interpretability

可控性与透明度：RLHF/RLAIF、语义可控性、幻觉抑制、可解释性、隐私保护、AI对齐

OpenClaw × VirusTotal：Skill 安全生态正式建立 — OpenClaw 与 VirusTotal 达成合作，为 ClawHub 上发布的所有 Skills 提供安全扫描和信誉评级，用户安装第三方技能前可查阅病毒检测报告。为什么重要： Agent 技能生态的安全治理有了第一个可参照的行业标准。

KNSoft/ClawSandbox：OpenClaw 的内核级沙箱 — 为 OpenClaw Agent 提供 Windows 内核态沙箱隔离，限制技能对系统资源的访问权限。作为独立开源项目发布，可被其他 Agent 框架复用。

评测 Benchmark

能力衡量标尺：新基准测试、认知属性评估、评测集污染、人类对齐评估、模型排名

Qwen 3.5 GPQA Diamond 88.4%，开源模型新纪录 — 同时 IFEval 达 92.6，开源三强 GLM-5/Kimi K2.5/GLM-4.7 在 Arena ELO 中集中在 1445-1451 区间。

Agentic 编码：Codex CLI + GPT-5.3-Codex 以 77.3% 领跑 — CLI/Agentic 任务专项 Benchmark，Droid + Claude Opus 4.6 以 69.9% 位居第二。

LM Council 新 Benchmark 平台上线 — 支持 GPT-5/Claude 4.5/Gemini 2.5/Grok 4 等主流模型跨 20+ Benchmark 对比，含 Humanity's Last Exam、FrontierMath、SWE-bench。

PinchBench - Success Rate Leaderboard

应用和行业方案 Application & Solution

应用

C端与B端产品落地：生产力工具、内容创作、搜索重构、企业SaaS、垂直方案、商业模式验证

L3Harris and Shield AI Achieve Breakthrough in Autonomous Electronic Warfare | L3Harris® Fast. Forward. 无人系统如何在无需人工干预的情况下实时检测、分析并应对电磁威胁

AI4S

AI驱动科研突破：药物发现、材料科学、气象预测、数学证明、科学计算融合

karpathy/autoresearch：AI 在单 GPU 上自主跑 LLM 训练实验 — Karpathy 开源 autoresearch：给 AI Agent 一套 LLM 训练环境，让其过夜自主进行实验迭代——每次修改代码→训练 5 分钟→评估→迭代，Human 只需定义研究方向。为什么重要： "Vibe Training"的具体实现，AI 辅助 AI 研究正从概念变为可复现工具。

Claw4S Conference：提交 Skills 即参会，首个 AI4Science 开源会议 — Rob Tang（斯坦福）宣布 Claw4S，一种新型 AI4Science 会议形式，参会方式是提交可运行的 OpenClaw Skills 而非传统论文，强调可复现性与工具化交付。

LabClaw 开源：斯坦福-普林斯顿团队为 LabOS 构建的 Skills 操作层 — A14Team（Stanford/Princeton）开源 LabClaw，一行命令将任意 OpenClaw Agent 变成完整的 AI 合作科学家，与 LabOS 深度集成，是科研 AI 化的关键基础设施。

交互界面 UIUX

界面范式迁移：对话式UI、生成式界面、自适应界面、多模态交互设计

机器人与实体应用 Robotics & Physical AI

真实场景机器人部署：杂乱场景操作、零售物流自动化、家庭服务、工业制造
端侧AI硬件：AI手机/PC、可穿戴设备、机器人传感器、端云协同、边缘推理优化

特斯拉"Terafab"自研 AI 芯片工厂，7 天内启动 — Elon Musk 宣布 Tesla 专用 AI 芯片生产设施即将投产，向英伟达的垂直整合挑战开始。

开发者工具 DevStack

技术栈和标准 Tech Stack & Standard

工程化基础设施：模型标准、API协议、提示词框架、MLOps/LLMOps、开源协同标准

trycua/cua：Computer-Use Agent 开源基础设施 — 让 AI Agent 能看屏幕、点按钮、自主完成桌面任务的开源框架，支持 macOS/Linux/Windows，内置 Lume 虚拟化系统和 OSWorld 评测套件，是 CUA 领域当前最完整的开源方案。

AI Buzzwords EP.77 英伟达的游刃有余

观点洞察与事件 Insight & Event

模型 Model

AI基础设施 AI Infra

基础模型 Foundation Model

多模态模型 MultiModality Model

具身模型 Embodied AI

其他模型 Misc Model

数据 Data & Context Engineering

AI安全和可解释性 AI Security & Interpretability

评测 Benchmark

应用和行业方案 Application & Solution

应用

AI4S

交互界面 UIUX

机器人与实体应用 Robotics & Physical AI

开发者工具 DevStack

技术栈和标准 Tech Stack & Standard

fengxiaoping.notion.site