如何构建有效的AI代理（AI Agent）？

在过去的一年里，我们（Anthropic）与数十个团队合作，构建跨行业的大型语言模型（LLM）代理。成功的实现案例一致表明，最有效的实现并不是使用复杂的框架或专业的库，而是采用简单、可组合的模式进行构建。

在这篇文章中，我们分享了与客户合作以及自己构建代理的经验，并为开发者提供了构建有效代理的实用建议。

什么是代理？

“代理”可以有多种定义。一些客户将代理定义为能够独立运行并在较长时间内完成复杂任务的完全自主系统，使用各种工具来实现目标。另一些客户则用这个术语来描述遵循预定义工作流程的更具指导性的实现。在Anthropic，我们将所有这些变体归类为代理系统，但在工作流程和代理之间做出重要的架构区分：

工作流程是通过预定义代码路径协调LLM和工具的系统。
代理则是LLM动态指导自身过程和工具使用的系统，保持对完成任务方式的控制。

接下来，我们将详细探讨这两种类型的代理系统。在附录1（“实践中的代理”）中，我们描述了客户在使用这些系统时发现的两个特别有价值的领域。

何时（以及何时不）使用代理

在使用大型语言模型（LLMs）构建应用程序时，我们建议尽可能寻找最简单的解决方案，只有在必要时才增加复杂性。这可能意味着根本不构建智能代理系统。智能代理系统通常会在延迟和成本与更好的任务性能之间进行权衡，因此您应该考虑这种权衡何时是合理的。

当需要更多复杂性时，工作流为定义明确的任务提供了可预测性和一致性，而当需要灵活性和大规模的模型驱动决策时，代理则是更好的选择。然而，对于许多应用程序来说，优化单个 LLM 调用与检索和上下文示例通常就足够了。

何时以及如何使用框架

有许多框架可以使智能代理系统的实现变得更加容易，包括：

LangGraph 来自 LangChain；
亚马逊 Bedrock 的 AI Agent 框架；
Rivet，一个拖放式图形用户界面 LLM 工作流构建器；以及
Vellum，另一个用于构建和测试复杂工作流的图形用户界面工具。

这些框架通过简化调用 LLM、定义和解析工具以及将调用链在一起等标准低级任务，使得入门变得简单。然而，它们往往会创建额外的抽象层，这可能会掩盖底层的提示和响应，从而使调试变得更加困难。它们还可能使得在简单设置足够的情况下，诱使您增加复杂性。

我们建议开发人员直接使用 LLM API：许多模式可以用几行代码实现。如果您确实使用框架，请确保您理解底层代码。对底层实现的错误假设是客户错误的常见来源。

请查看我们的食谱以获取一些示例实现。

构建模块、工作流和智能体

在本节中，我们将探讨在实际应用中看到的智能系统的常见模式。我们将从基础构建模块——增强型LLM开始，逐步增加复杂性，从简单的组合工作流到自主智能体。

构建模块：增强型LLM

智能系统的基本构建模块是一个增强了检索、工具和记忆等功能的LLM。我们当前的模型可以主动使用这些能力——生成自己的搜索查询、选择合适的工具以及确定保留哪些信息。

图：增强型LLM

我们建议关注实施的两个关键方面：将这些能力量身定制以满足您的特定用例，并确保它们为您的LLM提供一个简单、文档齐全的接口。虽然有多种方法可以实现这些增强功能，但一种方法是通过我们最近发布的模型上下文协议，该协议允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本帖的其余部分，我们将假设每次LLM调用都可以访问这些增强功能。

工作流：提示链

提示链将任务分解为一系列步骤，其中每次LLM调用处理前一次的输出。您可以在任何中间步骤上添加程序性检查（见下图中的“门”），以确保过程仍在正轨上。

图：提示链工作流

何时使用此工作流程： 该工作流程非常适合于任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过将每次 LLM 调用变为更简单的任务，从而在延迟和更高的准确性之间进行权衡。

提示链式应用的示例：

生成营销文案，然后将其翻译成另一种语言。
编写文档大纲，检查大纲是否符合某些标准，然后根据大纲撰写文档。

工作流程：路由

路由对输入进行分类，并将其引导到专门的后续任务。该工作流程允许关注点的分离，并构建更专业化的提示。如果没有这个工作流程，针对某种输入的优化可能会影响其他输入的性能。

图：路由工作流程

何时使用此工作流程： 路由适用于复杂任务，其中存在不同类别，且这些类别更适合单独处理，并且分类可以由 LLM 或更传统的分类模型/算法准确处理。

路由有用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导到不同的下游流程、提示和工具中。
将简单/常见问题路由到较小的模型，如 Claude 3.5 Haiku，而将困难/不寻常的问题路由到更强大的模型，如 Claude 3.5 Sonnet，以优化成本和速度。

工作流程：并行化

LLM 有时可以同时处理一个任务，并以编程方式聚合它们的输出。该工作流程，即并行化，主要表现为两个关键变体：

分段: 将一个任务拆分为独立的子任务并行运行。
投票: 多次运行相同的任务以获得多样化的输出。

图：并行化工作流程

何时使用此工作流程: 当拆分的子任务可以并行化以提高速度，或者当需要多个视角或尝试以获得更高置信度的结果时，并行化是有效的。对于具有多个考虑因素的复杂任务，当每个考虑因素由单独的LLM调用处理时，LLM通常表现更好，这样可以集中注意力于每个特定方面。

并行化有用的示例:

分段:
- 实施保护措施，其中一个模型实例处理用户查询，而另一个实例筛查不当内容或请求。这通常比让同一个LLM调用同时处理保护措施和核心响应效果更好。
- 自动化评估以评估LLM性能，其中每个LLM调用评估模型在给定提示上的不同性能方面。
投票:
- 审查一段代码的漏洞，其中多个不同的提示审查并标记代码，如果发现问题则进行标记。
- 评估给定内容是否不当，多个提示评估不同方面或要求不同的投票阈值，以平衡假阳性和假阴性。

工作流程: 协调者-工作者

在协调者-工作者工作流程中，中央LLM动态地将任务拆分，委派给工作者LLM，并综合它们的结果。

图：协调者-工作者工作流程

何时使用此工作流程： 此工作流程非常适合复杂任务，在这些任务中，您无法预测所需的子任务（例如，在编码中，需要更改的文件数量以及每个文件中的更改性质可能取决于任务）。尽管在拓扑上相似，但与并行化的关键区别在于其灵活性——子任务不是预定义的，而是由协调者根据特定输入确定的。

协调者-工作者有用的示例：

编码产品，每次对多个文件进行复杂更改。
搜索任务，涉及从多个来源收集和分析信息以寻找可能相关的信息。

工作流程：评估者-优化器

在评估者-优化器工作流程中，一个LLM调用生成响应，而另一个则在循环中提供评估和反馈。

图：评估者-优化器工作流程

何时使用此工作流程： 当我们有明确的评估标准，并且迭代改进提供可衡量的价值时，此工作流程特别有效。适合的两个标志是，首先，当人类表达反馈时，LLM的响应可以明显改善；其次，LLM能够提供这样的反馈。这类似于人类作家在撰写精炼文档时可能经历的迭代写作过程。

评估者-优化器有用的示例：

文学翻译，其中存在翻译者LLM可能最初无法捕捉的细微差别，但评估者LLM可以提供有用的批评。
复杂搜索任务，需要多轮搜索和分析以收集全面信息，评估者决定是否需要进一步搜索。

代理

代理在生产中逐渐崭露头角，因为大型语言模型（LLMs）在关键能力上不断成熟——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复。代理的工作通常始于来自人类用户的命令或互动讨论。一旦任务明确，代理便可以独立规划和操作，可能会在需要进一步信息或判断时返回与人类沟通。在执行过程中，代理在每一步都必须从环境中获取“真实情况”（例如工具调用结果或代码执行），以评估其进展。代理可以在检查点暂停以获取人类反馈，或在遇到障碍时进行暂停。任务通常在完成时终止，但也常常会设置停止条件（例如最大迭代次数）以保持控制。

代理能够处理复杂任务，但它们的实现通常相对简单。它们通常只是基于环境反馈循环使用工具的LLMs。因此，清晰而周到地设计工具集及其文档至关重要。我们在附录2（“为您的工具进行提示工程”）中详细阐述了工具开发的最佳实践。

图：自主代理

何时使用代理： 代理可以用于开放性问题，在这些问题中，很难或不可能预测所需的步骤数量，并且无法硬编码固定路径。LLM可能会进行多轮操作，因此您必须对其决策能力有一定的信任。代理的自主性使其非常适合在受信环境中扩展任务。代理的自主性意味着更高的成本，以及潜在的错误累积风险。我们建议在沙盒环境中进行广泛测试，并设置适当的保护措施。

代理有用的示例：

以下示例来自我们自己的实现：

一个编码代理，用于解决 SWE-bench 任务，这些任务涉及根据任务描述对多个文件进行编辑；
我们的 “计算机使用”参考实现，在该实现中，Claude 使用计算机完成任务。

图：编码代理的高层流程

组合和定制这些模式

这些构建模块并不是强制性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。成功的关键，与任何 LLM 功能一样，是衡量性能并对实现进行迭代。重申一下：您应该考虑在明显改善结果时才增加复杂性。

总结

在 LLM 领域取得成功并不是构建最复杂的系统，而是为您的需求构建合适的系统。从简单的提示开始，通过全面评估进行优化，仅在简单解决方案不足时添加多步骤的代理系统。

在实施代理时，我们尝试遵循三个核心原则：

在代理的设计中保持简单性。
通过明确展示代理的规划步骤来优先考虑透明性。
通过全面的工具文档和测试仔细设计您的代理-计算机接口 (ACI)。框架可以帮助你快速入门，但在进入生产阶段时，不要犹豫减少抽象层次，使用基本组件进行构建。遵循这些原则，你可以创建出不仅强大而且可靠、可维护并受到用户信任的代理。

致谢

本文由 Erik Schluntz 和 Barry Zhang 撰写。我们的工作基于在 Anthropic 构建代理的经验，以及客户分享的宝贵见解，我们对此深表感谢。

附录 1：代理的实践

我们与客户的合作揭示了两个特别有前景的 AI 代理应用，展示了上述模式的实际价值。这两个应用都说明了代理在需要对话和行动、具有明确成功标准、能够启用反馈循环并整合有意义的人类监督的任务中增值最多。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的能力相结合。这对于更开放的代理来说是一个自然的契合，因为：

支持互动自然遵循对话流程，同时需要访问外部信息和行动；
可以集成工具以提取客户数据、订单历史和知识库文章；
诸如发放退款或更新工单等操作可以通过编程处理；以及
成功可以通过用户定义的解决方案明确衡量。

几家公司通过基于使用的定价模型展示了这种方法的可行性，仅对成功的解决方案收费，显示出对其代理有效性的信心。

B. 编码代理

软件开发领域展现出对大型语言模型（LLM）功能的显著潜力，其能力从代码补全发展到自主问题解决。代理特别有效的原因包括：

代码解决方案可以通过自动化测试进行验证；
代理可以利用测试结果作为反馈对解决方案进行迭代；
问题空间定义明确且结构化；以及
输出质量可以客观衡量。

在我们自己的实现中，代理现在可以仅根据拉取请求描述解决真实的 GitHub 问题，基于 SWE-bench Verified 基准。然而，尽管自动化测试有助于验证功能，但人工审查仍然对确保解决方案符合更广泛的系统要求至关重要。

附录 2：工具的提示工程

无论你正在构建哪种代理系统，工具都可能是你代理的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义与外部服务和 API 进行交互。当 Claude 响应时，如果它计划调用工具，将在 API 响应中包含一个工具使用块。工具的定义和规范应与整体提示同样受到提示工程的关注。在这个简短的附录中，我们描述了如何对你的工具进行提示工程。以下是翻译结果：

通常有几种方法可以指定相同的操作。例如，您可以通过编写差异（diff）来指定文件编辑，或者通过重写整个文件来实现。对于结构化输出，您可以在markdown或JSON中返回代码。在软件工程中，这些差异通常是表面上的，可以无损地相互转换。然而，有些格式对于大型语言模型（LLM）来说比其他格式更难以编写。编写差异需要在写入新代码之前知道在块头中有多少行正在更改。与markdown相比，在JSON中编写代码需要额外转义换行符和引号。

我们对决定工具格式的建议如下：

给模型足够的标记以便在写入之前“思考”，避免陷入困境。
保持格式接近模型在互联网上自然出现的文本。
确保没有格式“开销”，例如需要准确计算数千行代码，或对其编写的任何代码进行字符串转义。

一个经验法则是考虑人机界面（HCI）投入了多少努力，并计划在创建良好的代理与计算机接口（ACI）上投入同样的努力。以下是一些实现这一目标的想法：

站在模型的角度思考。根据描述和参数，使用这个工具是否显而易见，还是需要仔细考虑？如果是这样，那么模型也可能会有同样的情况。一个好的工具定义通常包括示例用法、边界情况、输入格式要求，以及与其他工具的明确区分。
如何更改参数名称或描述以使其更清晰？可以把这看作是为团队中的初级开发者撰写一份优秀的文档字符串。当使用许多相似工具时，这一点尤其重要。
测试模型如何使用你的工具：在我们的工作台中运行多个示例输入，以查看模型会犯哪些错误，并进行迭代。
对你的工具进行防错设计。更改参数，使得更难出错。

在为 SWE-bench 构建代理时，我们实际上花了更多时间来优化工具，而不是整体提示。例如，我们发现模型在代理移出根目录后，使用相对文件路径的工具会出错。

为了解决这个问题，我们将工具更改为始终要求绝对文件路径——结果发现模型对此方法的使用非常顺畅。