视觉模型的“GPT时刻”?解读DeepMind最新论文

视觉模型的“GPT时刻”?解读DeepMind最新论文

13分钟 ·
播放数308
·
评论数0

核心主题

解析 Google DeepMind 视频模型 Veo 3,看其如何推动计算机视觉从 “单任务模型” 迈向通用基础模型。

关键洞见

  1. 范式转变:类比 NLP 的提示词驱动,视觉领域将告别定制化训练,迎来通用模型时代;
  2. 能力涌现:Veo 3 零样本完成边缘检测、图像分割等传统任务,潜力超训练目标;
  3. “帧链” 推理:类比语言模型 “思维链”,通过逐帧生成实现时空维度分步推理;
  4. 推理萌芽:可解迷宫、视觉谜题,不只是生成工具,更是初级智能体。

Veo 3 四大层级能力(递进式)

  • 感知:解 “达尔马提亚狗” 错觉图、罗夏墨迹测试;
  • 建模:模拟光的折射 / 反射、“视觉层层叠” 物理交互;
  • 操控:360 度新视角生成、机器人手开罐子模拟;
  • 推理:数独求解、瑞文推理测验序列补全。

量化与展望

  • 对比:7 任务中远超 Veo 2,pass@k(k 次尝试成功率)随次数稳定提升;
  • 未来:当前性能是 “下限”,提示词工程 + 成本下降(参考 LLM 降本趋势)将释放潜力。

总结

Veo 3 正推动视觉领域迎来类似 NLP 的 “GPT-3 时刻”,通用视频模型驱动的视觉新时代将至。