DINOv3:用Gram锚定拯救稠密视觉特征

DINOv3:用Gram锚定拯救稠密视觉特征

17分钟 ·
播放数0
·
评论数0

这期聊 DINOv3 怎么点破一个关键问题:自监督视觉模型越做越大,分类更强了,但分割、深度、跟踪这些依赖 patch 细节的稠密特征反而会退化。它的核心招式是 Gram anchoring,不强行对齐特征值,而是锁住 patch 之间的相似结构,让局部几何关系不散。结果也很硬:ADE20k、NYUv2、DAVIS、COCO 等任务全面提升,说明大规模自监督视觉模型第一次更系统地解决了 dense feature 失真问题。

00:00 背景与动机
02:03 方法拆解
05:09 实验结果深读
11:44 图表导读
13:11 评价与讨论
15:05 延伸思考

Source: paper | arxiv.org