智能体在自主能力、决策能力、协作交互等方面展现出优势,弥补了大模型的不足,是未来大模型最主流的使用方式

智能体发展阶段

AI等级
类比自动驾驶
名称 特定 示例
L1 Tool 人类完成所有工作, 没有任何显性的AI辅助 目前绝大多数软件产品
L2 Chatbot 人类完成绝大部分工作, 人类向AI询问意见, 了解信息, AI提供信息和建议, 但不直接处理工作 初代ChatGPT等
L3 Copilot 人类和AI进行协作, 工作量相当.AI根据人类prompt完成工作初稿, 人类进行目标设定, 修改调整, 最后确认 Github Copilot,Midjourney,Jasper等
L4 Agent AI完成绝大部分工作, 人类负责设定目标, 提供资源和监督结果.AI完成任务拆分, 工具选择, 进度控制, 实现目标后自主结束工作 AutoGPT等
L5 Species 完全无需人类监督, AAI自主拆解目标, 寻找资源, 选择并使用工具, 完成全部工作, 人类只提供目标 机器人?

什么是智能体

智能体(AI Agent、人工智能代理)的概念最早在1986年由被誉为“AI之父”的马文·明斯基(Marvin Minsky)在《意识社会》(The Society of Mind)中提出。
明斯基定义的智能体的核心要素:

  • 要素1:分布式智能体集合
  • 要素2:层级协作机制
  • 要素3:无中央控制

OpenAI的元老翁丽莲于2023年6月在个人博客首次提出了现代AI Agent架构。
智能体(AI Agent)是一种能够自主行动、感知环境、 做出决策并与环境交互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元,具备独立思考、 调用工具去逐步完成给定目标的能力。

文章链接如下:https://lilianweng.github.io/posts/2023-06-23-agent/

智能体架构

智能体架构

智能体核心要素

大模型(LLM)

大模型作为“大脑”:提供推理、规划和知识理解能力,是AI Agent的决策中枢。

记忆(Memory)

短期记忆

存储单次对话周期的上下文信息,属于临时信息存储机制。受限于模型的上下文窗口长度

长期记忆

可以横跨多个任务或时间周期,可存储并调用核心知识,非即时任务。
长期记忆可以通过模型参数微调(固化知识)、知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。

工具使用(Tool Use)

调用外部工具(如API、数据库)扩展能力边界。

规划决策(Planning)

通过任务分解、反思与自省框架实现复杂任务处理。例如,利用思维链(Chain of Thought)将目标拆解为子任务,并通过反馈优化策略。

行动(Action)

实际执行决策的模块,涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。比如:检索、推理、编程等。

智能体核心要素