CVPR 2026 特别篇:为什么 10 年后,ResNet 仍在改写 AIMLSYS Feed

CVPR 2026 特别篇:为什么 10 年后,ResNet 仍在改写 AI

10分钟 ·
播放数3
·
评论数1

## 本期重点

这期不是单纯盘点 CVPR 2026 获奖论文,而是抓住一条更耐看的主线:AI 的很多关键进步,不只是把模型做大,而是重新设计信息、计算和推理的默认路径。

从十年前的 ResNet residual path,到今年 CVPR Best Paper D4RT 的 4D query path,再到长视频里的 draft-and-verify、扩散模型里的 cache path,这些工作共同指向一个启发:真正经得起时间考验的 idea,往往会从一个架构 trick,变成跨模型、跨系统的设计语言。

## 时间线

00:00 开场:从 ResNet 作为 Test-of-Time 锚点切入,说明 CVF 奖项档案已列出 ResNet 和 YOLO 为 2026 Longuet-Higgins Prize 论文。


00:31 CVPR 2026 背景:Denver 会场、16,092 投稿、4,089 接收、141 oral、578 highlight、74 篇 award candidate;最终 Best Paper 为 D4RT。


01:11 Deep Residual Learning for Image Recognition


ResNet 主线:为什么 identity path / residual path 改变了深层网络默认信息路径,并继续影响 Transformer residual stream、adapter、U-Net skip connection、cache reuse 和 speculative decoding。


03:17 Efficiently Reconstructing Dynamic Scenes One D4RT at a Time


CVPR 2026 Best Paper。节目重点解释 D4RT 如何把动态 4D reconstruction 从密集逐帧输出改成统一表示上的时空点查询,并把它连接到“改路径,而不是只堆 decoder”的系统设计思想。


05:17 NitroGen: An Open Foundation Model for Generalist Gaming Agents


官方 Award Candidate / Oral。用 1000 多个游戏、4 万小时 gameplay video 训练通用 vision-action foundation model,代表从静态观察语料到 action-conditioned rollout 的预训练路径变化。


06:29 Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding


官方 Award Candidate / Oral。用轻量 draft MLLM 选择证据帧,再由 target MLLM 验证和推理,作为长视频理解里的 draft-and-verify 路径。


07:40 快速补充:SeaCache 与 VGGT-Ω


SeaCache 讨论扩散模型缓存有效性与频谱演化;VGGT-Ω 代表 feed-forward 3D reconstruction 的基础模型接口与内存路径设计。


08:54 3DReflecNet 一线对照


保留为复杂材质数据集的简短背景,不再作为主线段落。


09:11 Takeaways


核心启发:ResNet 的 identity path,D4RT 的 query path,NitroGen 的 trajectory pretraining path,Thinking with Drafts 的 draft/verify path,SeaCache 的 cache path,以及 VGGT-Ω 的几何接口路径,都在回答同一个问题:系统默认让信息怎么走,往往决定了模型能走多远。


## 论文与链接


- PI-approved WeChat report

- Link: mp.weixin.qq.com

- CVF Computer Vision Awards archive

- Link: www.thecvf.com

- Deep Residual Learning for Image Recognition

- CVF paper: openaccess.thecvf.com

- Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

- CVF paper: openaccess.thecvf.com

- Project page: d4rt-paper.github.io

- NitroGen: An Open Foundation Model for Generalist Gaming Agents

- CVPR poster: cvpr.thecvf.com

- CVF paper: openaccess.thecvf.com

- Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

- CVPR poster: cvpr.thecvf.com

- CVF paper: openaccess.thecvf.com

- SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

- CVPR poster: cvpr.thecvf.com

- CVF paper: openaccess.thecvf.com

- VGGT-Ω

- CVPR poster: cvpr.thecvf.com

- CVF paper: openaccess.thecvf.com

- 3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects

- CVPR poster: cvpr.thecvf.com

- CVF paper: openaccess.thecvf.com


## 制作元信息


- 状态:送审草稿。音频已重新生成,时长 10:18

- 来源说明:本版按 PI 确认的微信报道重写叙事,奖项和论文事实用 CVPR/CVF 官方页面、CVF Open Access 页面、CVF Computer Vision Awards archive、D4RT project page 交叉核对。

- 微信直读限制:WeChat 页面返回环境/CAPTCHA gate,本地 Camoufox reader 目录缺失miku_ai 未安装。因此本稿记录为“PI-approved WeChat report via snippets/secondary evidence”,不声称已完整抓取原文。

- 奖项来源:CVF awards archive 确认 D4RT 为 CVPR 2026 Best Paper,确认 ResNet 与 YOLO 为 2026 Longuet-Higgins Prize 论文。

- 脚本:29 turns;口播文本 4,305 字符;无口播 URL、Markdown footnote、反引号或 citation clutter。

- TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;29 turns,输入 4,305 字符,计费文本 4,305 words。

- 音频处理:原始合成 audio_raw_11m45s.mp311:45,经 atempo=1.14 和 loudnorm 处理后得到最终 audio.mp3,时长 10:18,24 kHz mono,约 128 kbps。

## 评论

这期我们不是按获奖名单逐篇报菜名,而是把 ResNet、D4RT、draft-and-verify 和 cache 串成一条方法论主线:真正持久的 AI 进步,常常来自对信息路径和计算路径的重写。

10 年后的 ResNet 仍然重要,是因为它教会了深度模型一个朴素但耐用的原则:先保留稳定通路,再让模型学习必要的增量。

展开Show Notes
这期我们不是按获奖名单逐篇报菜名,而是把 ResNet、D4RT、draft-and-verify 和 cache 串成一条方法论主线:真正持久的 AI 进步,常常来自对信息路径和计算路径的重写。

10 年后的 ResNet 仍然重要,是因为它教会了深度模型一个朴素但耐用的原则:先保留稳定通路,再让模型学习必要的增量。