这期聊 DINOv3 怎么点破一个关键问题：自监督视觉模型越做越大，分类更强了，但分割、深度、跟踪这些依赖 patch 细节的稠密特征反而会退化。它的核心招式是 Gram anchoring，不强行对齐特征值，而是锁住 patch 之间的相似结构，让局部几何关系不散。结果也很硬：ADE20k、NYUv2、DAVIS、COCO 等任务全面提升，说明大规模自监督视觉模型第一次更系统地解决了 dense feature 失真问题。
00:00 背景与动机
02:03 方法拆解
05:09 实验结果深读
11:44 图表导读
13:11 评价与讨论
15:05 延伸思考
Source: paper | https://arxiv.org/pdf/2508.10104

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

DINOv3：用Gram锚定拯救稠密视觉特征

69cfa0a7b977fb2c47086427/lughdKKfE6wOFsmfi2hiQyWVKoAo.mp3