智能体在自主能力、决策能力、协作交互等方面展现出优势,弥补了大模型的不足,是未来大模型最主流的使用方式。
智能体发展阶段
| AI等级 类比自动驾驶 |
名称 | 特定 | 示例 |
|---|---|---|---|
| L1 | Tool | 人类完成所有工作, 没有任何显性的AI辅助 | 目前绝大多数软件产品 |
| L2 | Chatbot | 人类完成绝大部分工作, 人类向AI询问意见, 了解信息, AI提供信息和建议, 但不直接处理工作 | 初代ChatGPT等 |
| L3 | Copilot | 人类和AI进行协作, 工作量相当.AI根据人类prompt完成工作初稿, 人类进行目标设定, 修改调整, 最后确认 | Github Copilot,Midjourney,Jasper等 |
| L4 | Agent | AI完成绝大部分工作, 人类负责设定目标, 提供资源和监督结果.AI完成任务拆分, 工具选择, 进度控制, 实现目标后自主结束工作 | AutoGPT等 |
| L5 | Species | 完全无需人类监督, AAI自主拆解目标, 寻找资源, 选择并使用工具, 完成全部工作, 人类只提供目标 | 机器人? |
什么是智能体
智能体(AI Agent、人工智能代理)的概念最早在1986年由被誉为“AI之父”的马文·明斯基(Marvin Minsky)在《意识社会》(The Society of Mind)中提出。
明斯基定义的智能体的核心要素:
- 要素1:分布式智能体集合
- 要素2:层级协作机制
- 要素3:无中央控制
OpenAI的元老翁丽莲于2023年6月在个人博客首次提出了现代AI Agent架构。
智能体(AI Agent)是一种能够自主行动、感知环境、 做出决策并与环境交互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元,具备独立思考、 调用工具去逐步完成给定目标的能力。
文章链接如下:https://lilianweng.github.io/posts/2023-06-23-agent/
智能体架构

智能体核心要素
大模型(LLM)
大模型作为“大脑”:提供推理、规划和知识理解能力,是AI Agent的决策中枢。
记忆(Memory)
短期记忆
存储单次对话周期的上下文信息,属于临时信息存储机制。受限于模型的上下文窗口长度
长期记忆
可以横跨多个任务或时间周期,可存储并调用核心知识,非即时任务。
长期记忆可以通过模型参数微调(固化知识)、知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。
工具使用(Tool Use)
调用外部工具(如API、数据库)扩展能力边界。
规划决策(Planning)
通过任务分解、反思与自省框架实现复杂任务处理。例如,利用思维链(Chain of Thought)将目标拆解为子任务,并通过反馈优化策略。
行动(Action)
实际执行决策的模块,涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。比如:检索、推理、编程等。

评论