- Published on
穿越周期:Agent技术的三个哲学原理
- Authors

- Name
- narclee
近两年Manus、Claude Code、OpenClaw等新的Agent层出不穷,25年是「Agent元年」,26年,大家的共识是”Agent只会越来越多“。 我们只有穿越历史周期,看到这些Agent背后的技术本质,才能更好的结合业务、场景,理解和创造出更有价值的技术和产品。
追溯原点
在AI的黎明期,Agent的本质是自治——感知环境、设定目标、自主行动。这一能力建立在三个哲学原点之上:
控制论(行为逻辑):解决连接问题——系统如何与环境形成实时反馈闭环,这是自动驾驶、机器人的物理原点; 符号主义(认知逻辑):解决表达问题——世界如何被表征为可操作的符号,这是规划与推理的哲学原点; 心智社会(组织逻辑):解决规模问题——简单单元如何协作涌现复杂智能,这是多Agent架构的组织原点。
若将Agent比作探索未知世界的机器人,这三个维度分别回答了它如何生存、如何思考、如何扩展。
控制论:反馈闭环的物理本质
维纳提出的控制论定义了Agent的底层结构:闭环反馈。系统通过感知环境状态 S ,计算与目标 G 的偏差 E=G−S ,并执行修正动作。循环越快越精准,系统对不确定性的抵消能力就越强。
自动驾驶、温控器、导弹制导都是这种范式的体现——它们处理信号而非语义。大模型时代的不同在于,这种反馈发生在高维语义空间,而非仅仅是物理信号。
控制论的两个重要定律
- 必要变异度定律(艾什比):只有多样性才能吸收多样性。Agent的内部状态数必须≥环境复杂度。这解释了为何扩展模型参数能提升应对复杂场景的能力——本质上是在增加系统的"变异度储备"。
- 黑盒理论:Agent的智能可通过输入输出关系定义,无需关注内部构造。这为LLM作为"黑盒控制器"提供了理论基础——只要输出能根据输入反馈修正,即构成合格Agent。
局限:纯控制论处理信号而不理解意义。温控器能调节温度,但不懂得"冷"的概念。当Agent需要基于"冷"这个语义进行规划时,就必须引入符号主义。
控制论的局限性
虽然控制论解决了“如何行动”和“如何纠错”,但它面临一个巨大的瓶颈:它不理解“意义”。
在控制论中,Agent 只是在处理信号,而不是在理解语义。一个温控器知道温度低了要加热,但它不知道什么是“冷”,也不知道“舒适”是什么感觉。
为了让 Agent 具备真正的“思考”和“计划”能力,我们需要跨越到第二个原点:符号主义。
我们继续思考——从控制论跨越到符号主义。
如果说控制论解决了 Agent "如何生存"的问题,那么符号主义解决的就是 Agent "如何思考"的问题。
符号主义:意义与推理最早期的实践
控制论处理信号,符号主义操纵意义。
当温控器感应到20°C以下时,它触发加热电路;但当人说"我觉得冷",系统必须将物理感受抽象为符号"冷",调用世界模型("空调可制热"),通过逻辑规则(IF 冷 THEN 开加热)推导行动。
这就是纽厄尔与西蒙提出的物理符号系统假说:智能即对符号结构的操纵:
- 表征(将"室温"映射为T)
- 操作(逻辑规则)
- 搜索(在符号空间寻找目标路径)。
这种架构首次赋予Agent因果推理与反事实思考能力("如果没开加热器会怎样?"),催生了1980年代的专家系统(知识库+推理机)。但符号主义面临结构性天花板:封闭世界假设。
Siri的困境:"预注册的有限意图本体(如SET_ALARM、START_CALL等固定类别)"
其工作流程是经典的符号流水线:语音→文本→意图符号→槽位填充(time=08:00)→规则执行。这使其在封闭域内精准可控,但遭遇开放的逻辑之外的问题时很难work:
- 语义边界僵化:比如"我的心情很blue",Siri将"blue"匹配为颜色或音乐流派,而非情绪状态
- 框架问题:面对"播放安静音乐",它无法符号化"安静"的语境含义(深夜vs咖啡馆),只能返回预设的轻音乐列表
- 知识瓶颈:每个新功能需人工定义本体结构(如打车意图需标注上车地点、车型等属性)
相比之下,GPT-4通过分布式表征"弱接地"了隐喻("blue"的向量邻近"悲伤"),虽然牺牲精确性,却突破了封闭世界的围墙。
符号主义的脆弱性由此显现:一旦超出了预设规则库,系统无法降级。
当复杂任务需要跨域组合、动态适应时,单纯堆砌符号规则难以承接复杂环境。
这迫使我们从"构建完美大脑"转向"组织简单社会"——心智社会的原点。
心智社会:智能的分布式革命
当符号主义遭遇封闭世界与组合爆炸的瓶颈,明斯基在《心智社会》(1986)中提出根本性的范式转移:智能并非源于单一复杂程序,而是大量简单 Agent 协作的涌现现象。
这颠覆了笛卡尔的"中央我"模型。
在心智社会中,Agent 被递归定义:
- 基础 Agent(如"识别红色")
- 组成复合 Agent(如"避障")
- 元 Agent(调度/反思)协调。
智能通过竞争(多方案博弈)、协商(资源交易)与抑制(高层修正低层错误)产生,而非中央规划。
从 Siri 到 Manus:架构的跃迁
这一理论在 Manus 等现代 Agent 中成为工程现实。不同于 Siri 的单体符号库,Manus 是一个多 Agent 操作系统:
- 规划 Agent(元认知)将任务分解为子目标
- 专业 Agent(浏览器、代码、验证)并行处理,通过标准化接口(Function Calling)组合能力
- 记忆 Agent 维护上下文,执行 Agent 调用物理 API
三大困境的消解:
- 框架问题的局部化:无需更新整个世界状态。当编码 Agent 报错,它向调度 Agent 发送 distress 信号,触发反思 Agent 抑制当前行为并激活研究 Agent——因果链被封装在相关 Agent 内,而非全局符号库。
- 知识瓶颈的分治:各 Agent 拥有局部知识(浏览器懂 DOM,代码懂 Python),通过接口组合而非中央维护。动态实例化(需要时 spawn 计算 Agent,完成后销毁)实现了计算资源的按需分配,绕开了人工编码的线性成本。
- 符号实践的社会性:单个 Agent 的符号可能幻觉,但多 Agent 通过行动验证(物理 Agent 尝试抓取以验证视觉识别)和交叉确认达成共识,形成功能性接地——意义产生于协作实践,而非个体符号映射。
心智社会架构的问题
然而心智社会并非银弹。
Agent 数量的增长不仅带来规模的扩张,更引发交互的爆炸——每一个新增的 Agent 都可能与既有的所有 Agent 建立关联,导致系统的复杂性呈非线性蔓延,需通过层级封装(复合 Agent 对外表现为单一体)和注意力机制抑制噪声。
更深层的是涌现的不可控性:目标漂移(子 Agent 为完成局部目标违背整体意图)和级联失效(错误放大)要求规则层面的回归——用符号化硬性约束(如"禁止生成有害代码")作为边界守卫。
当 Manus 犯错时,责任归属变得模糊,这要求架构保留可观测性,使涌现行为可追溯。
三大原点的统一:现代 Agent 的哲学合题
我们终于抵达了控制论、符号主义、心智社会的辩证统一:
| 原点 | 解决的问题 | 提供的机制 | 现代 Agent 中的位置 |
|---|---|---|---|
| 控制论 | 如何与环境互动 | 反馈闭环、感知-行动循环 | 工具调用、环境感知、ReAct 循环 |
| 符号主义 | 如何推理与规划 | 逻辑规则、知识表征、因果链 | 提示词工程、知识图谱、形式化验证 |
| 心智社会 | 如何扩展与适应 | 多 Agent 协作、涌现、元认知 | 多 Agent 架构、动态规划、反思机制 |
控制论、符号主义、心智社会并非相互取代,而是在现代 Agent 架构中相互协调。
在 Manus 这类系统中,调度器协调子 Agent 时依赖符号主义的接口契约(JSON Schema、Function Calling)确保确定性;各 Agent 对环境的响应遵循控制论的反馈逻辑(感知-行动-修正);而系统的扩展性则源于心智社会的组织原则——通过多 Agent 的协作涌现智能并非单一独裁的Agent统治。
当 Claude Code 在调试代码时循环执行(控制论),它同时也在用符号逻辑验证语法(符号主义),并通过规划-执行-验证的 Agent 分工(心智社会)来管理认知负荷。
以上正如明斯基在《心智社会》中写的