哪个代理导致任务失败以及何时导致？来自 PSU 和杜克大学的研究人员探索 LLM 多代理系统的自动故障归因

376 阅读 0 评论 0 点赞

近年来，LLM 多智能体系统因其解决复杂问题的协作方法而受到广泛关注。然而，尽管有一系列活动，但这些系统在任务中失败是一种常见的情况。这给开发人员留下了一个关键问题：哪个代理在什么时候对故障负责？筛选大量交互日志以查明根本原因就像大海捞针一样，这是一项耗时且劳动密集型的工作。

对于开发人员来说，这是一个熟悉的挫败感。在日益复杂的多代理系统中，由于代理协作的自主性和长信息链，故障不仅很常见，而且非常难以诊断。如果无法快速识别故障源，系统迭代和优化就会陷入停顿。

为了应对这一挑战，宾夕法尼亚州立大学和杜克大学的研究人员与 Google DeepMind 等机构合作，引入了“自动故障归因”这一新研究问题。他们为这项任务构建了第一个基准数据集 Who&When，并开发和评估了几种自动归因方法。这项工作不仅凸显了任务的复杂性，还为增强 LLM 多代理系统的可靠性铺平了一条新道路。

该论文已被接受为顶级机器学习会议 ICML 2025 的 Spotlight 演示，代码和数据集现已完全开源。

论文：https://arxiv.org/pdf/2505.00212
代码：https://github.com/mingyin1/Agents_Failure_Attribution
数据集：https://huggingface.co/datasets/Kevin355/Who_and_When

研究背景和挑战
LLM 驱动的多智能体系统在许多领域都显示出巨大的潜力。然而，这些系统很脆弱;单个智能体的错误、智能体之间的误解或信息传递的错误都可能导致整个任务的失败。

目前，当系统出现故障时，开发人员往往只能手动且低效的调试方法：
手动日志考古：开发人员必须手动查看冗长的交互日志，以找到问题的根源。
依赖专业知识：调试过程高度依赖于开发人员对系统和手头任务的深刻理解。

这种“大海捞针”的调试方式不仅效率低下，而且严重阻碍了系统的快速迭代和系统可靠性的提升。迫切需要一种自动化、系统化的方法来查明故障原因，有效地弥合“评估结果”和“系统改进”之间的差距。

核心贡献
本文为解决上述挑战做出了多项开创性的贡献：
1. 定义新问题：该论文首次将“自动故障归因”形式化为一项具体的研究任务。此任务是通过识别故障负责的代理和导致任务失败的决定性错误步骤来定义的。
2. 构建第一个基准数据集：Who&When：该数据集包括从 127 个 LLM 多代理系统收集的各种故障日志，这些日志要么是算法生成的，要么是由专家手工制作的，以确保真实性和多样性。每个失败日志都附有以下
细粒度的人工注释：谁：负责故障的代理。
时间：发生决定性错误的特定交互步骤。
原因：对失败原因的自然语言解释。

3. 探索初始“自动归因”方法：使用 Who&When 数据集，本文设计并评估了三种不同的自动故障归因方法：
– 一次性：此方法为 LLM 提供用户查询和完整的失败日志，要求其在一次通过中识别责任代理和决定性错误步骤。虽然具有成本效益，但在长期上下文中可能很难查明精确错误。
– 循序渐进：这种方法模仿手动调试，让 LLM 按顺序审查交互日志，在每个步骤中做出判断，直到发现错误。它在定位错误步骤方面更精确，但会产生更高的成本和累积错误的风险。
– 二分搜索：作为前两种方法之间的折衷方案，该策略反复将日志分成两半，使用 LLM 确定哪个段包含错误。然后，它递归搜索已识别的段，从而实现成本和性能的平衡。

实验结果和主要发现
实验在两种环境中进行：一种是 LLM 知道多智能体系统试图解决的问题的基本真相答案（有地面实况），另一种是不知道（没有地面实况）。使用的主要模型是 GPT-4o，但也测试了其他模型。在 Who&When 数据集上对这些方法的系统评估得出了几个重要的见解：
– 任重而道远：目前的方法远非完美。即使是性能最好的单一方法，在识别责任代理人方面也仅达到了约 53.5% 的准确率，在精确定位错误步骤方面仅达到 14.2%。有些方法的表现甚至比随机猜测还要差，凸显了任务的难度。
– 没有“一体化”解决方案：不同的方法在问题的不同方面表现出色。一次性方法更擅长识别“谁”，而分步方法更有效地确定“何时”。二分搜索方法提供了中间性能。

– 混合方法显示出前景，但成本高昂：研究人员发现，结合不同的方法，例如使用一次性方法来识别潜在代理，然后应用分步方法查找错误，可以提高整体性能。然而，这伴随着计算成本的显着增加。

– 最先进的模型挣扎：令人惊讶的是，即使是最先进的推理模型，如 OpenAI o1 和 DeepSeek R1，也发现这项任务具有挑战性。- 这凸显了自动故障归因的固有困难，它需要比更传统任务所需的更高水平的推理。
– 显式推理的重要性：提供显式提示，要求法学硕士以一次性和分步方法解释其推理，结果显示可以提高性能。

– 上下文长度是一个限制因素：研究还表明，随着故障日志的上下文长度的增加，所有归因方法的性能往往会下降，对识别错误步骤的准确性的影响更为明显。
– 未来展望：为更可靠的多代理系统
铺平道路“自动故障归因”是多代理系统开发生命周期中的关键组成部分。它有可能将确定“出了什么问题以及谁应该受到指责”的挑战从一个令人费解的谜团转变为一个可量化和分析的问题。通过在评估和改进之间架起一座桥梁，我们最终可以创建更可靠、更智能、更值得信赖的多代理系统。

点赞(0) 打赏

本文分类：AI资讯
本文标签：代理AI LLM
浏览次数：376 次浏览
发布日期：2025-09-16
本文链接：https://www.willenyao.com/a/1088.html

本站所有素材均来自网络或用户分享，版权归属原作者，如果侵犯了您的版权，请随时联系我们（邮箱：970251487@qq.com）进行删除。

哪个代理导致任务失败以及何时导致？来自 PSU 和杜克大学的研究人员探索 LLM 多代理系统的自动故障归因

评论列表共有 0 条评论

发表评论取消回复

哪个代理导致任务失败以及何时导致？来自 PSU 和杜克大学的研究人员探索 LLM 多代理系统的自动故障归因

万字长文｜大语言模型结构化输出（Structured Output）的技术原理和实现

从响应到查询：语言模型中逆向思维的力量

超越 Next-Token Prediction？Meta 的新型架构引发了关于大型语言模型未来的辩论

GRPO 的效率可以提高 10 倍吗？快手 AI 的 SRPO 建议 SRPO 是

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复