Planning 类 Agent 有哪些模式
一句话速记
Planning 型 Agent 显式产「计划/子目标序列」,再执行**;和 ReAct 的每步现想现做可对照。常见变体:先计划后执行、计划-执行-重规划、分解-委派。**
BabyAGI等早期开源项目名字易考「记忆任务队列 + 再规划」,不必背实现细节,记「队列里的任务来自模型自分解」即可。
模式对照
| 模式 | 流程 | 适合 | 风险 |
|---|---|---|---|
| Plan-then-Execute | 一次或少数次生成完整步骤表,再逐步执行 | 子任务边界清晰、环境少突变 | 初计划错则全错;可辅以人类确认 |
| Plan-Execute-Replan | 每阶段结束用新观测****重写或裁剪后续计划 | 长任务、环境动态 | 实现复杂;循环与终止要设计 |
| 分解 + 子 Agent | Planner 产子任务,子进程/子 prompt 并行或串行完成 | 任务可并行、领域分化 | 协调成本、状态合并、重复劳动 |
| 与 ReAct 混合 | 粗计划 + 每步用 ReAct 填充细节 或纠错 | 工程上常见 | 调参步数/费用平衡 |
Plan-and-Execute 在教材与论文中常成对出现:上面「先计划后执行」+「执行后可能再规划」的合称,不同资料用语略混,记语义即可。
和 ReAct 怎么选(答题角度)
- 环境探索性强、上一步才懂下一步:偏 ReAct 或 短窗计划。
- 任务可事先拆成检查清单**(写报告、多文件迁移)**:Plan-Execute-Replan 更省对话轮次。
- 成本敏感:先计划减少无效工具调用,但要验证计划可执行(schema、权限)。
延伸追问
-
Q:计划存在哪里?
答:对话上下文、结构化 scratchpad、外置任务队列、图结构(有向图表示依赖);说清**「可读可改」的持久化**比具体存储重要。 -
Q:子目标谁来监督完成?
答:LLM 自评、规则、单元检测、人审;生产里常混合。 -
Q:和强化学习里 hierarchical policy 比?
答:都是分层次;大模型里上层「计划」多由自然语言+约束显式化,不依赖传统 reward 学出来的 low-level 策略,但可组合(如 RL 训工具选择头)。
我的记法
TODO
状态
- 已背速记
- 能讲通俗版
- 能答追问
参考资料
- 各类 Plan-and-Execute 中文技术博客与 2022–2024 顶会 Agent 综述 中的规划一节;无唯一标答论文需死记。