这期聊 DINOv3 怎么点破一个关键问题:自监督视觉模型越做越大,分类更强了,但分割、深度、跟踪这些依赖 patch 细节的稠密特征反而会退化。它的核心招式是 Gram anchoring,不强行对齐特征值,而是锁住 patch 之间的相似结构,让局部几何关系不散。结果也很硬:ADE20k、NYUv2、DAVIS、COCO 等任务全面提升,说明大规模自监督视觉模型第一次更系统地解决了 dense feature 失真问题。
00:00 背景与动机
02:03 方法拆解
05:09 实验结果深读
11:44 图表导读
13:11 评价与讨论
15:05 延伸思考
Source: paper | arxiv.org
