【第609期】Auto-Diagnose:基于大语言模型的谷歌集成测试故障自动诊断Seventy3

【第609期】Auto-Diagnose:基于大语言模型的谷歌集成测试故障自动诊断

12分钟 ·
播放数4
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

LLM-Based Automated Diagnosis Of Integration Test Failures At Google

Summary

集成测试(integration testing)对于复杂软件系统的质量与可靠性至关重要。然而,由于其生成的日志具有海量、非结构化以及异构等特点,故障诊断面临巨大挑战。这些问题导致开发者需要承受很高的认知负担,日志中的信噪比极低,使诊断过程困难且耗时。

开发者长期以来持续抱怨这些困难,并表示,相较于单元测试失败,他们在集成测试故障诊断上花费了显著更多时间。

为了解决这些问题,我们提出了 Auto-Diagnose,一种利用大型语言模型(LLM)帮助开发者高效定位集成测试失败根因的新型诊断工具。

Auto-Diagnose 能够:

  • 分析失败日志;

  • 生成简洁摘要;

  • 提取最相关的日志行;

并被集成进 Google 内部代码审查系统 Critique 中,从而提供具备上下文感知能力的实时辅助。

根据案例研究结果,Auto-Diagnose 表现出了很高的有效性。

在针对 71 个真实世界故障进行的人工评估中:

  • 根因诊断准确率达到 90.14%。

在 Google 范围内部署后:

  • Auto-Diagnose 被应用于 52,635 个不同的失败测试案例。

用户反馈显示:

  • 仅有 5.8% 的情况被评价为“无帮助(Not helpful)”;

  • 在 Critique 中发布诊断结果的 370 个工具里,其有用性排名第 14 位。

最后,用户访谈进一步证实:

  • 开发者普遍认为 Auto-Diagnose 具有实际价值;

  • 将自动化诊断能力集成到现有工作流中的做法获得了积极评价。

我们最终得出结论:LLM 在诊断集成测试失败方面表现优异,原因在于其具备处理和总结复杂文本数据的能力。同时,将这类 AI 驱动工具自动集成到开发者日常工作流中,整体上会获得积极接受;而工具的准确率则仍然是影响开发者认知与采用程度的关键因素。

原文链接:arxiv.org