论文:Can Vision Language Models Judge Action Quality? An Empirical Evaluation
一句话核心结论
现在最强的看图说话 AI,根本做不了 “动作打分”,在健身、花滑、跳水这些精细动作上,基本等于瞎蒙,离真人教练 / 裁判差太远。
它到底研究了啥
- 研究场景
动作质量评估(AQA):看视频给动作打分,比如健身标不标准、跳水漂不漂亮、花滑规不规范。
- 测试对象
目前顶流多模态模型:Gemini 3.1 Pro、Qwen3‑VL、InternVL3.5 等。
- 怎么测的
换各种提示词、加人体骨架信息、用分步推理、给例子学习
覆盖健身、花样滑冰、跳水等多个场景
- 测出来啥结果
所有模型只比瞎猜好一丢丢,基本不及格
加骨架、改提示、给例子,偶尔有用,但没有稳定有效的办法
AI 有两个明显毛病:
不管动作对不对,总爱说 “做得好”
很容易被提问话术带偏,怎么问就怎么答
- 最后结论
不是改改提示就能解决,是 AI 根本理解不了精细动作,现在还不能拿来当靠谱裁判或教练。
