【第609期】Auto-Diagnose：基于大语言模型的谷歌集成测试故障自动诊断

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

LLM-Based Automated Diagnosis Of Integration Test Failures At Google

Summary

集成测试（integration testing）对于复杂软件系统的质量与可靠性至关重要。然而，由于其生成的日志具有海量、非结构化以及异构等特点，故障诊断面临巨大挑战。这些问题导致开发者需要承受很高的认知负担，日志中的信噪比极低，使诊断过程困难且耗时。

开发者长期以来持续抱怨这些困难，并表示，相较于单元测试失败，他们在集成测试故障诊断上花费了显著更多时间。

为了解决这些问题，我们提出了 Auto-Diagnose，一种利用大型语言模型（LLM）帮助开发者高效定位集成测试失败根因的新型诊断工具。

Auto-Diagnose 能够：

并被集成进 Google 内部代码审查系统 Critique 中，从而提供具备上下文感知能力的实时辅助。

根据案例研究结果，Auto-Diagnose 表现出了很高的有效性。

在针对 71 个真实世界故障进行的人工评估中：

在 Google 范围内部署后：

用户反馈显示：

最后，用户访谈进一步证实：

我们最终得出结论：LLM 在诊断集成测试失败方面表现优异，原因在于其具备处理和总结复杂文本数据的能力。同时，将这类 AI 驱动工具自动集成到开发者日常工作流中，整体上会获得积极接受；而工具的准确率则仍然是影响开发者认知与采用程度的关键因素。

原文链接：arxiv.org