SHARE

COMMENT

VOICE_COMMENT

COMMENT_PIN_OPERATION

MUTE_COMMENT_AUTHOR

DELETE

论文：Can Vision Language Models Judge Action Quality? An Empirical Evaluation
一句话核心结论
现在最强的看图说话 AI，根本做不了 “动作打分”，在健身、花滑、跳水这些精细动作上，基本等于瞎蒙，离真人教练 / 裁判差太远。
它到底研究了啥
* 研究场景
动作质量评估（AQA）：看视频给动作打分，比如健身标不标准、跳水漂不漂亮、花滑规不规范。
* 测试对象
目前顶流多模态模型：Gemini 3.1 Pro、Qwen3‑VL、InternVL3.5 等。
* 怎么测的
换各种提示词、加人体骨架信息、用分步推理、给例子学习
覆盖健身、花样滑冰、跳水等多个场景
* 测出来啥结果
所有模型只比瞎猜好一丢丢，基本不及格
加骨架、改提示、给例子，偶尔有用，但没有稳定有效的办法
AI 有两个明显毛病：
不管动作对不对，总爱说 “做得好”
很容易被提问话术带偏，怎么问就怎么答
* 最后结论
不是改改提示就能解决，是 AI 根本理解不了精细动作，现在还不能拿来当靠谱裁判或教练。

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

大模型发展日新月异，但大量评测、以及技术相关论文内容专业、结构复杂、信息密集，想读懂一篇往往要花费数小时。为了降低理解门槛，我们用博客的形式拆解每一篇经典或前沿的大模型相关论文。
每篇内容控制在10分钟阅读量以内，围绕：
- 🧠 核心问题与研究动机
- 🛠️ 方法拆解与创新点
- 📊 实验设计与结果分析
- 🧭 结论反思与实践启发
适合评测同学、算法同学运营产品、以及对大模型感兴趣的学习者在碎片时间高效获取论文精华，轻松跟上大模型领域的最新进展。

AI_SUMMARIZE_EPISODE

听论文-懂大模型评测

AI为何看不懂健身动作？

689b02344cbd503733d7aa25/lnfLKH9hFfSlHqDbxcHv047lY-jN.m4a