最近在学 Datawhale 出的开源教程《Hello Agents》,感觉特别适合像我这样刚入门 agent应用开发的开发者。这篇笔记是我对第一章《初识智能体》的整理与理解,希望能帮自己理清思路,以后更好的进行回顾。


一、智能体到底是什么?

“智能体(Agent)”这个词很多人一开始听得有点懵,但这里可以举个形象的例子:

智能体就像一个能自己思考、感知、行动的“数字”。

它不是一个单纯的聊天机器人,而是一个能感知环境、制定计划、执行任务的系统。
比如一个AI助手可以:

  • 读取用户输入(感知),

  • 判断任务目标(思考),

  • 然后去调用搜索、数据库或别的工具完成任务(行动)。

如果需要对上述的知识进行一个总结,我觉得就是这个公式:Agent = 感知 + 思考 + 行动。


二、为什么现在智能体这么火?

关键点是——大语言模型(LLM)让智能体“有了大脑”。
以前的智能体只能基于工程师的先验知识执行预设指令,现在的智能体能“理解语义”,甚至“规划多步任务”。
这就是为什么大家现在热衷研究 LLM Agent,因为它让 AI 从“被动工具”变成了“主动助手”。


三、智能体的基本组成

  1. 环境(Environment):Agent 生活的世界,比如网页、文件系统、数据库。

  2. 感知(Perception):Agent 从环境中获取信息。

  3. 决策(Decision Making):Agent 用语言模型或算法来“想办法”。

  4. 行动(Action):Agent 执行计划,比如调用 API、写文件、发消息。

有点像我们人类的思考过程——眼睛看(感知)、大脑想(决策)、手去做(行动)。


四、LLM 智能体的典型架构

  • LLM(大语言模型):作为 Agent 的“核心大脑”,负责理解和推理。

  • 工具(Tools):让 Agent 具备操作能力,比如搜索、计算、联网等。

  • 记忆(Memory):保存对话和任务的历史信息,让 Agent 能“记住”上下文。

  • 计划器(Planner):帮助 Agent 制定多步执行计划。


五、智能体 vs 普通应用

  • 普通应用是规则驱动的(程序员写死逻辑)。

  • 智能体是目标驱动的(AI 自己决定怎么做)。

这让我想到未来软件的形态可能会完全不同:我们不是教机器“怎么做”,而是告诉它“要做什么”,然后它自己去想办法。


🧩 小结与思考

LLM 让这种智能体变得更自然、更强大,这也许正是下一波 AI 应用创新的起点。我本身在做Agent+硬件,

我期望着,Agent与物理世界的联系会越来越紧密。