Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
LLM-Based Automated Diagnosis Of Integration Test Failures At Google
Summary
集成测试(integration testing)对于复杂软件系统的质量与可靠性至关重要。然而,由于其生成的日志具有海量、非结构化以及异构等特点,故障诊断面临巨大挑战。这些问题导致开发者需要承受很高的认知负担,日志中的信噪比极低,使诊断过程困难且耗时。
开发者长期以来持续抱怨这些困难,并表示,相较于单元测试失败,他们在集成测试故障诊断上花费了显著更多时间。
为了解决这些问题,我们提出了 Auto-Diagnose,一种利用大型语言模型(LLM)帮助开发者高效定位集成测试失败根因的新型诊断工具。
Auto-Diagnose 能够:
分析失败日志;
生成简洁摘要;
提取最相关的日志行;
并被集成进 Google 内部代码审查系统 Critique 中,从而提供具备上下文感知能力的实时辅助。
根据案例研究结果,Auto-Diagnose 表现出了很高的有效性。
在针对 71 个真实世界故障进行的人工评估中:
根因诊断准确率达到 90.14%。
在 Google 范围内部署后:
Auto-Diagnose 被应用于 52,635 个不同的失败测试案例。
用户反馈显示:
仅有 5.8% 的情况被评价为“无帮助(Not helpful)”;
在 Critique 中发布诊断结果的 370 个工具里,其有用性排名第 14 位。
最后,用户访谈进一步证实:
开发者普遍认为 Auto-Diagnose 具有实际价值;
将自动化诊断能力集成到现有工作流中的做法获得了积极评价。
我们最终得出结论:LLM 在诊断集成测试失败方面表现优异,原因在于其具备处理和总结复杂文本数据的能力。同时,将这类 AI 驱动工具自动集成到开发者日常工作流中,整体上会获得积极接受;而工具的准确率则仍然是影响开发者认知与采用程度的关键因素。
原文链接:arxiv.org

