

【第563期】贝叶斯教学:提升大语言模型的概率推理能力Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models Summary 大语言模型(LLM)正越来越多地被用作与用户及世界交互的代理。为了成功实现这一点,LLM 必须构建对世界的表征,并形成关于这些表征的概率信念(probabilistic beliefs)。例如,为了提供个性化推荐,LLM 需要从用户在多次交互中的行为中推断其偏好。 贝叶斯推理框架为代理在接收新信息时如何更新其信念提供了最优路径。我们首先证明,LLM 的表现远未达到贝叶斯框架所定义的标准。随后我们表明,通过教导 LLM 模拟规范贝叶斯模型的预测,可以显著提升它们更新信念的能力;这种能力可以泛化到新的任务中。 我们得出结论:LLM 能够有效地从示例中学习推理技能,并将这些技能泛化到新的领域。 原文链接:https://arxiv.org/abs/2503.17523
【第562期】ActionEngine:状态机驱动的程序化GUI智能体Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory Summary 现有的图形用户界面(GUI)代理通过对视觉语言模型(VLM)的逐步调用来运行——拍摄截图、推理下一步操作、执行操作,然后在新闻页面上重复此过程。这导致了高昂的成本和随推理步数增加而增长的延迟,且由于缺乏对已访问页面的持久化内存,准确率也受到限制。 我们提出了 ActionEngine:一个无需训练的框架,通过一种新颖的双代理架构,实现了从“反应式执行”向“程序化规划”的转变: 1. 爬虫代理(Crawling Agent):通过离线探索构建 GUI 的可更新状态机内存。 2. 执行代理(Execution Agent):利用该内存合成完整的、可执行的 Python 程序,用于在线任务执行。 为了确保对不断演变的界面的鲁棒性,执行失败会触发一种基于视觉的重新定位回退机制(vision-based re-grounding fallback),以修复失败的操作并更新内存。 这种设计极大地提升了效率和准确率:在 WebArena 基准测试的 Reddit 任务中,我们的代理以平均单次 LLM 调用实现了 95% 的任务成功率(相比之下,最强的纯视觉基准模型成功率为 66%),同时成本降低了 11.8 倍,端到端延迟降低了 2 倍。 通过结合全局程序化规划、经爬虫验证的操作模板,以及带有局部验证与修复的节点级执行,这些组件共同实现了可扩展且可靠的 GUI 交互。 原文链接:https://arxiv.org/abs/2602.20502
【第561期】AgentConductor:强化学习驱动的多智能体代码生成拓扑演化Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation Summary 由大语言模型(LLM)驱动的多代理系统(MAS)通过预定义的交互拓扑结构协调专业代理,并在竞赛级代码生成等复杂任务中展现出巨大潜力。近期研究表明,精心设计的多代理工作流和通信图可以通过协作推理显著提升代码生成性能。 然而,现有方法既不能根据任务难度自适应地调整拓扑密度,也无法利用执行反馈在单个实例内迭代优化拓扑,这导致了冗余通信和性能瓶颈。 为了解决这些问题,我们提出了 AgentConductor:一个由强化学习优化的 MAS。其核心是一个基于 LLM 的编排代理(Orchestrator Agent),能够实现端到端、反馈驱动的交互拓扑动态生成。针对每个查询,AgentConductor 会推断代理角色和任务难度,随后构建一个任务自适应且感知密度的分层有向无环图(DAG)拓扑。 该系统包含两项核心创新: 1. 拓扑密度函数:设计了一种全新的函数,用于捕捉多代理交互中感知通信的数学特征。 2. 难度区间划分:采用难度区间划分策略,避免过度剪枝,从而实现对每个难度级别拓扑密度上限的精确测量和更精细的控制。 实验结果显示,在三个竞赛级和两个基础代码数据集上,AgentConductor 达到了当前最先进(SOTA)的准确率。与最强基准模型相比,其 pass@1 准确率提升了高达 14.6%,拓扑密度降低了 13%,且 Token 成本降低了 68%。 原文链接:https://arxiv.org/abs/2602.17100
【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Doc-to-LoRA: Learning to Instantly Internalize Contexts Summary 长输入序列是大语言模型(LLM)进行语境学习(In-context Learning)、文档理解和多步推理的核心。然而,Transformer 架构中注意力机制的平方级计算代价使得推理过程极其耗费内存且速度缓慢。虽然上下文蒸馏(Context Distillation, CD)可以将信息转移到模型参数中,但由于训练成本和延迟过高,针对每个提示词(Prompt)进行蒸馏在实际应用中并不现实。 为了解决这些局限性,我们提出了 Doc-to-LoRA (D2L):一种轻量级的超网络(Hypernetwork),它通过元学习(Meta-learning)实现在单次前向传播中进行近似上下文蒸馏。 给定一个未见过的提示词,D2L 会为目标 LLM 生成一个 LoRA 适配器,使得后续查询无需重新消耗原始上下文即可获得答案。这降低了目标 LLM 推理时的延迟和 KV 缓存(KV-cache)的内存消耗。 在长上下文“大海捞针”(Needle-in-a-haystack)任务中,D2L 成功学会了将上下文映射到存储“针”信息的适配器中,在序列长度超过目标 LLM 原生上下文窗口 4 倍以上的情况下,实现了近乎完美的零样本(Zero-shot)准确率。 在计算资源有限的真实问答数据集上,D2L 的表现优于标准上下文蒸馏,同时显著降低了峰值内存消耗和更新延迟。我们预见 D2L 能够促进 LLM 的快速自适应,为频繁的知识更新和个性化聊天行为开启新的可能性。 原文链接:https://arxiv.org/abs/2602.15902
【第559期】PAHF:基于人类反馈的个性化智能体持续学习Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Learning Personalized Agents from Human Feedback Summary 现代 AI 代理虽然功能强大,但往往难以与个体用户特有的、不断演变的偏好保持一致。以往的方法通常依赖于静态数据集,要么在交互历史上训练隐式偏好模型,要么将用户画像编码在外部存储中。然而,这些方法在面对新用户以及随时间变化的偏好时显得力不从心。 我们提出了 PAHF(Personalized Agents from Human Feedback):这是一个用于持续个性化的框架,代理通过使用显式的单用户内存(per-user memory)从实时交互中进行在线学习。PAHF 执行一个三步循环流程: 1. 行动前澄清:通过询问来消除歧义; 2. 行动对齐:将行动植根于从内存中检索到的偏好; 3. 行动后反馈:当偏好发生漂移时,整合反馈以更新内存。 为了评估这一能力,我们开发了一个四阶段协议,并在具身操控(embodied manipulation)和在线购物两个场景中建立了基准测试。这些基准量化了代理从零开始学习初始偏好、以及随后适应人格特质转变的能力。 我们的理论分析和实验结果表明,将显式内存与双重反馈通道相结合至关重要:PAHF 的学习速度显著加快,且表现持续优于无内存或单通道的基准模型,有效降低了初始个性化误差,并实现了对偏好转移的快速适应。 原文链接:https://arxiv.org/abs/2602.16173
【第558期】Trace-Free+:大语言模型智能体工具描述改写框架Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use Summary 基于 LLM 的代理性能不仅取决于代理本身,还取决于其调用的工具接口质量。尽管此前的工作主要集中在代理微调上,但包括自然语言描述和参数架构在内的工具接口仍主要面向人类设计,往往成为性能瓶颈,尤其是在代理必须从大规模候选工具集中进行选择时。 现有的工具接口优化方法依赖于执行轨迹(execution traces),但在冷启动或受隐私限制的场景中,这些轨迹通常难以获取;此外,这些方法通常独立优化每个工具,限制了其扩展性以及对未知工具的泛化能力。 我们提出了 Trace-Free+:一个课程学习框架,该框架将监督信号逐步从轨迹丰富的场景转移到无轨迹的部署环境,鼓励模型抽象出可复用的接口使用模式和工具使用结果。为了支持这一方法,我们通过结构化工作流针对多种工具构建了一个大规模的高质量工具接口数据集。 在 StableToolBench 和 RestBench 上的实验结果表明: * 在未知工具上取得了持续的性能提升; * 展现出强大的跨领域泛化能力; * 当候选工具规模扩展至 100 个以上时,依然保持稳健。 这证明了工具接口优化是代理微调的一种实用且可部署的补充手段。 原文链接:https://arxiv.org/abs/2602.20426
【第557期】代码化上下文:大型代码库的 AI 智能体架构Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Codified Context: Infrastructure for AI Agents in a Complex Codebase Summary 基于 LLM 的代理式编程助手普遍缺乏持久化内存:它们会在不同会话间失去连贯性、遗忘项目规范,并重复已知的错误。近期研究描述了开发者如何通过清单文件(manifest files)配置代理,但如何在大规模、多代理项目中扩展此类配置仍是一个公开的挑战。 本文提出了一种代码化的上下文基础设施(codified context infrastructure),该架构由三个组件构成,是在构建一个包含 10.8 万行代码的 C# 分布式系统过程中开发的: 1. 热内存章程(Hot-memory Constitution):用于编码开发规范、检索钩子(retrieval hooks)和编排协议; 2. 19 个专业领域专家代理; 3. 冷内存知识库:包含 34 份按需调用的规范文档。 我们报告了在 283 次开发会话中,关于基础设施增长和交互模式的量化指标,并结合四个观察性案例研究,阐述了“代码化上下文”如何在不同会话间传递,从而防止失效并保持一致性。该框架已作为一个开源配套仓库发布。 原文链接:https://arxiv.org/abs/2602.20478
【第556期】深度思维率:量化大模型推理效能的新维度Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens Summary 大语言模型(LLM)通过长思维链(CoT)扩展测试时计算(test-time compute),展现了令人印象深刻的推理能力。然而,近期的研究表明,原始 Token 数量并不能可靠地代表推理质量:生成长度的增加并不总是与准确率正相关,反而可能预示着“过度思考”(overthinking),导致性能下降。 在这项工作中,我们通过识别深度思考 Token(deep-thinking tokens)来量化推理时的努力程度。这些 Token 的特征是:在模型层级收敛之前,其内部预测在更深的模型层中经历了显著的修正。 我们在四个具有挑战性的数学和科学基准测试(AIME 24/25、HMMT 25 和 GPQA-diamond)以及一系列专注于推理的模型(GPT-OSS、DeepSeek-R1 和 Qwen3)上进行了实验。结果表明,深度思考占比(生成序列中深度思考 Token 的比例)与准确率之间存在稳健且持续的正相关性,其表现显著优于基于长度或基于置信度的基准指标。 基于这一洞察,我们提出了 Think@n:一种优先考虑高深度思考占比样本的测试时缩放策略。我们证明了 Think@n 在匹配或超越标准自洽性(self-consistency)性能的同时,通过根据简短前缀提前拒绝(early rejection)无望的生成内容,显著降低了推理成本。 原文链接:https://arxiv.org/abs/2602.13517
【第555期】编码代理中 AGENTS.md 上下文文件的效用评估Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? Summary 在软件开发中,一种普遍的做法是通过手动或自动生成的上下文文件(如 .cursorrules)为特定仓库量身定制编程代理(Coding Agents)。尽管代理开发者强烈鼓励这种做法,但目前尚无严谨的研究调查此类上下文文件在处理真实任务时是否真的有效。 在本研究中,我们在两种互补的场景下评估了编程代理的任务完成性能: 1. SWE-bench 任务:针对知名仓库的既有任务,根据代理开发者的建议,使用 LLM 生成上下文文件。 2. 原创任务集:从包含开发者亲手编写(Developer-committed)的上下文文件的仓库中收集的新问题。 通过对多个编程代理和 LLM 的测试,我们发现: * 性能下降与成本上升:与不提供仓库上下文相比,上下文文件往往会降低任务成功率,同时增加超过 20%的推理成本。 * 行为影响:无论是 LLM 生成还是开发者提供的上下文文件,都会促使代理进行更广泛的探索(例如更彻底的测试和文件遍历),且编程代理倾向于遵守这些指令。 最终我们得出结论:上下文文件引入的冗余要求反而增加了任务难度;因此,人工编写的上下文文件应仅描述最少限度的必要需求。 原文链接:https://arxiv.org/abs/2602.11988
【第554期】从AGI到SAI:超越通用人工智能的专业化进路Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AI Must Embrace Specialization via Superhuman Adaptable Intelligence Summary 从 AI 高管、研究人员到末日预言者、政治家和活动人士,每个人都在讨论通用人工智能(AGI)。然而,他们似乎往往无法在其确切定义上达成共识。AGI 的一个常见定义是“能做人类能做的一切事情的 AI”,但人类真的是“通用的”吗? 在本文中,我们探讨了目前 AGI 概念中存在的缺陷,以及为什么即便是在其最连贯的表述下,它依然是一个不足以描述 AI 未来的错误概念。我们审视了那些被广泛接受的定义是否合理、有用且真正具备“通用性”。 我们认为,AI 应当拥抱专业化(Specialization)而非追求通用性,并在专业化中力求达到超人性能。基于此,我们引入了 超人自适应智能(Superhuman Adaptable Intelligence, SAI) 概念。SAI 被定义为: * 能够通过学习,在任何人类能做的重要事情上超越人类; * 能够填补人类能力无法企及的技能空白。 随后,我们阐述了 SAI 如何帮助厘清曾被过度解读的 AGI 定义所模糊的 AI 讨论,并推演了以 SAI 作为未来指南所带来的深远影响。 原文链接:https://arxiv.org/abs/2602.23643
【第553期】混乱之源:自主AI代理红队测试研究报告Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Agents of Chaos Summary 我们对部署在真实实验室环境中的、由语言模型驱动的自主代理(autonomous agents)进行了红队探索性研究。这些代理具备持久化内存、电子邮件账户、Discord 访问权限、文件系统以及 Shell 执行能力。在为期两周的时间里,20 名 AI 研究员在良性和对抗性条件下与这些代理进行了交互。 我们聚焦于因语言模型与自主性、工具调用及多方通信相结合而引发的失效问题,并记录了 11 个具有代表性的案例研究。观察到的行为包括: * 越权行为:未经授权即服从非所有者的指令。 * 信息泄露:泄露敏感信息。 * 破坏性操作:执行系统级的破坏行为。 * 资源风险:引发拒绝服务(DoS)状况及失控的资源消耗。 * 身份与传播:身份冒用漏洞以及不安全行为在代理间的交叉传播。 * 系统控制权:系统部分控制权被夺取。 在多个案例中,代理报告任务已完成,但底层系统状态却与报告内容相矛盾。我们同时也报告了一些攻击失败的尝试。 研究结果证实,在现实部署场景中,代理存在与安全、隐私及治理相关的显著漏洞。这些行为引发了关于问责制、授权委托以及下游损害责任归属等尚未解决的法律与伦理问题,需要法学学者、决策者和跨学科研究人员的紧急关注。本报告旨在为这一广泛讨论提供初步的实证贡献。 原文链接:https://arxiv.org/abs/2602.20021
【第552期】SKILL-INJECT:大模型智能体技能注入攻击基准测试Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: SKILL-INJECT: Measuring Agent Vulnerability to Skill File Attacks Summary LLM 代理正凭借代码执行、工具调用以及近期推出的“代理技能”(agent skills)功能迅速演进。技能插件允许用户通过特定的第三方代码、知识和指令来扩展 LLM 应用。尽管这能将代理能力延伸至新领域,但也导致代理供应链日益复杂,为提示词注入攻击(prompt injection attacks)提供了新的攻击面。 我们认定基于技能的提示词注入是一项重大威胁,并推出了 SkillInject:一个用于评估常用 LLM 代理对通过技能文件实施注入的敏感程度的基准测试。SkillInject 包含 202 个“注入-任务”对,攻击类型涵盖了从显而易见的恶意注入,到隐藏在合法指令中、与上下文相关的隐蔽攻击。 我们在 SkillInject 上对前沿 LLM 进行了评估,同时衡量了其安全性(对有害指令的规避能力)和效用性(对合法指令的遵循能力)。结果显示: * 高度脆弱性:当前的代理极易受到攻击,即便使用前沿模型,攻击成功率也高达 80%。 * 严重危害:代理经常执行极具危害性的指令,包括数据窃取、破坏性操作以及类似勒索软件的行为。 * 系统性挑战:研究进一步表明,该问题无法通过模型规模缩放(scaling)或简单的输入过滤来解决。 稳健的代理安全将需要上下文感知的授权框架。 原文链接:https://arxiv.org/abs/2602.20156
【第551期】AgentSkiller:面向通用智能体的全自动大规模合成数据框架Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis Summary 大语言模型(LLM)代理在通过工具解决现实世界问题方面展现出巨大潜力,但通用智能的进一步提升却受限于高质量、长程(long-horizon)数据的匮乏。现有方法要么收集受隐私限制的 API 日志,要么生成缺乏多样性的脚本化交互,难以产生扩展模型能力所需的数据。 我们提出了 AgentSkiller:一个全自动化的框架,用于在真实的、语义关联的领域中合成多轮交互数据。它采用基于 DAG(有向无环图) 的架构,具有明确的状态转换,以确保确定性和可恢复性。 该流水线的工作流程如下: * 环境构建:构建领域本体和“以人为中心的实体图”(Person-Centric Entity Graph)。 * 接口定义:通过“服务蓝图”为 Model Context Protocol (MCP) 服务器定义工具接口。 * 数据填充:使用一致的数据库和严格的领域策略填充环境。 * 跨域融合:利用跨域融合机制链接不同服务,以模拟复杂任务。 * 任务生成:通过验证解决方案路径、执行验证过滤,并使用“基于画像的模拟器”(Persona-based Simulator)生成查询进行自动演练,从而创建用户任务。 这一流程产生了具有清晰状态变化的可靠环境。为了证明其有效性,我们合成了约 1.1 万条交互样本;实验结果表明,在该数据集上训练的模型在函数调用(function calling)能力上较基准模型有显著提升,在参数规模较大的模型中表现尤为突出。 原文链接:https://arxiv.org/abs/2602.09372
【第550期】AdaptEvolve:基于置信度自适应选择的进化智能体系统Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection Summary 演化代理系统(Evolutionary agentic systems)通过在推理过程中反复调用大语言模型(LLM),加剧了计算效率与推理能力之间的权衡。在这种背景下,产生了一个核心问题:代理如何能动态地选择一个既足以胜任当前生成步骤,又能保持计算高效的 LLM? 虽然模型级联(model cascades)为平衡这种权衡提供了一种实用机制,但现有的路由策略通常依赖于静态启发式算法或外部控制器,且未显式考虑模型的不确定性。 我们提出了 AdaptEvolve:一种用于多 LLM 演化优化(Evolutionary Refinement)的自适应 LLM 选择框架。该框架在演化序列优化过程中,利用内在生成置信度(intrinsic generation confidence)来评估实时的可解性。实验结果表明,这种由置信度驱动的选择机制产生了优越的帕累托前沿(Pareto frontier):在保持静态大模型基准 97.5% 准确率上限的同时,将各基准测试的总推理成本平均降低了 37.9%。 原文链接:https://arxiv.org/abs/2602.11931
【第549期】EchoJEPA:超声心动图潜在预测基础模型Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: EchoJEPA: A Latent Predictive Foundation Model for Echocardiography Summary 超声心动图的基础模型通常难以从超声波固有的随机斑点噪声(Speckle)和采集伪影中分离出解剖信号。 我们提出了 EchoJEPA,这是一种在来自 30 万名患者的 1800 万份超声心动图上训练的基础模型,代表了迄今为止该领域最大的预训练语料库。通过利用潜变量预测目标(Latent Predictive Objective),EchoJEPA 学习到了能够忽略斑点噪声的稳健解剖表征。 我们使用一种新型的、基于冻结骨干网络的**多切面探测框架(Multi-view Probing Framework)**对其进行了验证。结果显示,EchoJEPA 在左心室射血分数(LVEF)估算方面优于领先的基准模型约 20%,在右心室收缩压(RVSP)估算方面优于基准模型约 17%。 此外,该模型表现出卓越的样本效率:仅使用 1% 的标注数据,其切面分类准确率即可达到 79%,而表现最好的基准模型在 100% 标注数据下的准确率仅为 42%。 至关重要的一点是,EchoJEPA 展示了优异的泛化能力。在受物理启发的人工声学扰动下,其性能仅下降了 2%,而竞争模型则下降了 17%。最引人注目的是,它在儿科患者上的**零样本(Zero-shot)**表现甚至超过了经过充分微调的基准模型。这证明了潜变量预测是构建稳健、泛化性强的医疗人工智能的卓越范式。 原文链接:https://arxiv.org/abs/2602.02603