2026.02.18 | GLM-5智能体工程登顶50分；SAE可解释性遭随机基线打脸 - HuggingFace 每日AI论文速递

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

传送门 🔗www.xiaoyuzhoufm.com

【目录】

本期的 15 篇论文如下：

00:31 🤖 GLM-5: from Vibe Coding to Agentic Engineering（GLM-5：从氛围编码到智能体工程）

01:11 🔍 Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?（稀疏自编码器的合理性检验：SAE是否优于随机基线？）

01:57 🤖 Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook（人工智能代理社会是否会出现社会化现象？以Moltbook为例的研究）

02:41 🧪 ResearchGym: Evaluating Language Model Agents on Real-World AI Research（ResearchGym：在真实世界AI研究上评估语言模型智能体）

03:54 🧠 UniT: Unified Multimodal Chain-of-Thought Test-time Scaling（UniT：统一多模态思维链测试时扩展）

04:50 ⚙ COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression（COMPOT：面向Transformer压缩的校准优化矩阵正交Procrustes方法）

05:38 🧠 Revisiting the Platonic Representation Hypothesis: An Aristotelian View（重访柏拉图式表征假说：一种亚里士多德式的观点）

06:23 ⚖ Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models（理解与生成：多模态模型中的优化困境探索）

07:11 🎭 On Surprising Effectiveness of Masking Updates in Adaptive Optimizers（论掩码更新在自适应优化器中的惊人有效性）

07:56 ⚕ ClinAlign: Scaling Healthcare Alignment from Clinician Preference（ClinAlign：基于临床医生偏好的医疗对齐扩展）

08:51 ⚖ STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens（STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习）

09:37 🔍 Visual Persuasion: What Influences Decisions of Vision-Language Models?（视觉说服：什么影响了视觉-语言模型的决策？）

10:32 ⚡ Learning Native Continuation for Action Chunking Flow Policies（学习原生连续性以实现动作分块流策略）

11:19 🎥 Geometry-Aware Rotary Position Embedding for Consistent Video World Model（面向一致视频世界模型的几何感知旋转位置嵌入）

12:07 🧠 TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models（TAROT：基于测试驱动和能力自适应课程强化微调的大语言模型代码生成方法）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递