智能体 2.0:从“循环脚本”到真正的智能系统

1597 字
5 分钟
0

原文作者:Philipp Schmid 原文地址:agents-2.0-deep-agents

在过去一年里,很多人所谓的 AI 智能体(AI Agent),其实结构非常简单: 写一个 while 循环,把用户的提示词(Prompt)发给大模型(LLM),解析模型返回的工具调用指令,执行工具,再把结果喂回模型,如此反复。

这类系统通常被称为 浅层智能体(Shallow Agent),也就是 Agent 1.0

对于一些简单任务,比如:

“东京现在天气怎么样,我应该穿什么?”

这样的系统已经足够好用。但当任务变成:

“研究 10 个竞争对手的定价模型,做一个对比表,并写一份战略分析报告。”

问题就出现了。

这类任务可能需要 几十甚至上百个步骤,而传统 Agent 很容易:

  • 分心跑题
  • 丢失上下文
  • 陷入循环
  • 产生幻觉

原因也很简单:所有“记忆”和状态都挤在一个上下文窗口里。

现在,一种新的架构正在出现—— 深度智能体(Deep Agents),也可以称为 Agent 2.0。

这类系统不再只是被动地循环执行,而是具备:

  • 规划能力
  • 持久化记忆
  • 分工协作的子智能体
  • 更精细的上下文管理

从而能够真正处理 复杂、多步骤、长时间的任务

overview
overview

智能体 1.0:浅层循环的问题

要理解 Agent 2.0 的意义,先看看现在主流 Agent 的工作方式。

典型流程如下:

  1. 用户提问

    “查一下苹果公司的股价,并判断是否值得买入。”

  2. 模型推理

    “我需要使用搜索工具。”

  3. 调用工具

    search(“AAPL stock price”)

  4. 获取结果

    工具返回搜索数据。

  5. 模型生成回答

    根据结果回复,或者继续调用工具。

  6. 循环执行

这种架构的问题在于:

它几乎没有真正的“状态”。

所有信息都堆在对话上下文里,一旦任务复杂,就会出现几个典型问题。

1. 上下文溢出

工具输出往往很长,比如:

  • HTML 页面
  • JSON 数据
  • 大量文本

这些内容会迅速填满上下文窗口,把最初的任务目标挤掉。

2. 目标丢失

在几十个中间步骤之后,Agent 可能已经忘了:

“我最开始到底要做什么?”

于是开始胡乱尝试。

3. 没有恢复能力

如果走进死胡同,浅层 Agent 往往只会:

  • 重复尝试
  • 原地打转

而不会 回溯、调整策略或重新规划

简单来说:

浅层 Agent 适合 5–15 步的任务,但面对 100+ 步任务就会崩溃。

Agent 2.0:深度智能体的架构

深度智能体的核心思想是:

把“规划”和“执行”分开,并把记忆移出上下文窗口。

通常,这类系统由 四个关键支柱组成。

支柱一:显式规划(Explicit Planning)

浅层 Agent 的规划往往是隐式的,例如:

“我先做 X,然后做 Y。”

但这种规划只存在于模型的一次思考里,很容易丢失。

深度智能体会把计划 显式写出来,例如一个 Markdown 任务列表:

在每一步执行后,Agent 会更新状态:

  • Pending(待处理)
  • In Progress(进行中)
  • Completed(已完成)

如果某一步失败,它不会盲目重试,而是 修改计划再继续

这样系统始终知道:

当前任务是什么,整体目标是什么。

支柱二:层级委托(子智能体)

复杂任务通常需要分工。

浅层 Agent 试图 一个 Prompt 做所有事情。 而深度智能体采用 协调者 + 子智能体 的结构。

例如:

  • Coordinator(协调者)
  • Researcher(研究员)
  • Coder(程序员)
  • Writer(写作者)

工作流程是:

  1. 协调者分配任务
  2. 子智能体在自己的上下文里执行
  3. 子智能体完成任务后 只返回总结结果

这样可以避免:

  • 上下文污染
  • 信息过载
  • 职责混乱

每个 Agent 只做自己擅长的事情

支柱三:持久化记忆

深度智能体不会把所有信息塞进上下文,而是使用外部存储,例如:

  • 文件系统
  • 数据库
  • 向量数据库

Agent 可以:

  • 写入文件
  • 读取数据
  • 查询历史结果

例如:

/research/quantum_notes.md /data/competitor_prices.csv /report/draft_v1.md

新的 Agent 只需要知道:

去哪里读取信息。

范式从:

“记住一切”

变成:

“知道去哪里查。”

支柱四:极致上下文工程

很多人以为:

模型越强,就越不需要 Prompt。

但事实正好相反。

复杂 Agent 需要非常详细的上下文设计。

这些说明往往包含:

  • 什么时候需要先规划
  • 什么时候创建子智能体
  • 工具的定义与使用示例
  • 文件结构和命名规范
  • 人类介入(Human-in-the-loop)的流程

这些提示有时会达到 几千个 token

但正是这些规则,让系统能够 稳定运行长时间任务

可视化深度智能体的工作流

举个例子:

用户请求:

“研究量子计算,并写一份总结到文件中。”

深度智能体的流程可能是:

  1. 创建任务计划
  2. 启动 Researcher 子智能体收集资料
  3. 将资料写入本地文件
  4. 启动 Writer 子智能体生成总结
  5. 更新任务状态为 Completed

整个过程中:

  • 计划在更新
  • 数据在存储
  • 子智能体在分工

系统始终保持 清晰的结构和状态

sequence
sequence

结语

Agent 1.0(浅层智能体)Agent 2.0(深度智能体) 的演进,并不仅仅是:

给大模型接更多工具。

真正的变化是:

从被动循环,转向主动架构。

通过:

  • 显式规划
  • 子智能体协作
  • 持久化记忆
  • 精细化上下文工程

我们终于可以让 AI 处理 数小时甚至数天的复杂任务,而不仅仅是几秒钟的问答。

这也意味着:

AI Agent 正在从“脚本自动化”走向真正的软件系统。

致谢

这一概述基于深入的人工研究整理而成。 “Deep Agents(深度智能体)”这一术语由 LangChain 团队提出并逐渐流行,用于描述这种新型智能体架构。

版权声明

本文采用 CC BY-NC-SA 4.0 协议进行许可。转载请保留原文链接及作者。