Agent 的基本抽象是什么

一句话速记

LLM Agent 是在环境中通过多步**的「选行动 → 执行 → 观察结果 → 再决策」闭环完成目标的系统;核心构件通常含:工具/函数状态与记忆规划或启发式选工具,可选 多智能体

和相邻概念划界

概念行为方式典型用途
单次补全 / chat一轮或固定多轮,无对外可执行「行动」与环境反馈问答、摘要
提示链 / Chain预定义步骤顺序、每步可调用 LLM,步骤本身不变固定流程任务
有向无环图工作流人工或配置定好分支、节点,运行时按图走稳定业务编排
Agent未完全预设的搜索空间里动态选动作(常含工具名与参数),依环境观测迭代查库、调 API、多步信息搜集与提交

本质差别行动空间是否开放反馈是否进下一轮推理终止条件是否由目标与观测共同决定

常见最小环路(抽象)

  1. 目标 + 当前上下文/记忆
  2. 模型输出 下一步动作(含工具参数或自然语言到工具的映射)
  3. 环境工具层执行,得到 Observation(成功、报错、自然语言结果、结构化数据)
  4. 将 Observation 写回上下文(含失败),回到 2,直到停词无可用动作达目标

(实现上可同步或异步、可有并发与子目标,概念上仍是「环」。)

与「自主」程度

  • :只允许从若干固定「技能包」里选,且每步都强模板约束。
  • :ReAct/工具循环,步级再决策。
  • :显式规划自 critic多智能体分工与争论(工程上代价与不可控性同步上升)。

延伸追问

  • Q:Agent 一定要工具调用吗?
    答:不必叫「Tool」——只要存在可改变外部状态/获取外部信息动作(写文件、发 HTTP、点 UI),就算;纯「在脑子里多步链式思考」若外反馈,更偏 CoT 模拟,不叫完整 Agent 闭环(除非明确定义内部环境)。

  • Q:RAG 是 Agent 吗?
    答:RAG 是查库再答的管线;一次 retrieve + 生成 = 通常不算 Agent。若 多轮检索、改写 query、看中间结果再决定下一步,则进入 Agent 或 Agentic RAG 范畴。

  • Q:和强化学习里 Agent 的关系?
    答:词同源:感知-行动-奖励/反馈;大模型 Agent 的「策略」用 LLM+提示 近似,不必然用 RL 训练,但概念框架可类比。

我的记法

TODO

状态

  • 已背速记
  • 能讲通俗版
  • 能答追问

参考资料

  • 综述与工业实践:多来自工具调用规范(如函数调用 schema)、ReAct/AutoGPT 类论文与产品文档的归纳,无单一必读书。