有人说大模型是”灵魂”,我觉得不太对。灵魂太虚了。更准确的说法:大脑就是大模型,身体就是 Harness。这个类比不是修辞,是真的能对上。
环境构造:身体定义了世界的边界
大模型本身没有世界。它有的只是训练数据里残留的世界投影。给它一个 prompt,它才开始”活”——但 prompt 本身不是世界,是世界的一个切片、一个窗口。
人的大脑也一样。你闭上眼,大脑不会自己造出一个完整世界出来。是身体的感官——眼睛、耳朵、皮肤——在不断把外界信号灌进大脑,大脑才有了”环境”可以处理。没有身体,大脑就是个泡在营养液里的计算器,算力再强也算不出窗外有没有下雨。
Harness 干的事就是环境构造。Agent 的感知模块、工具调用、上下文窗口管理——这些全是身体在替大脑”开窗”。上下文窗口就是工作记忆,工具就是手脚,RAG 就是翻笔记。不是大脑自己在做这些事,是 Harness 在替它做。
说白了:大脑不选世界,身体选世界。 你往哪走、看什么、摸什么,决定了大脑接下来要算什么。Harness 的环境构造能力,直接决定了 Agent 的智商上限。
刺激-行为:从信号到动作的回路
大模型的核心能力是 next token prediction。给它一段上下文,它吐一个 token。这不是”行为”,这是”反射”。
但把大模型套进 Harness 之后,事情变了。用户说了一句”帮我订机票”,大模型吐出 tool_call,Harness 拿着 tool_call 去调 API,API 返回结果,结果灌回上下文,大模型再吐下一步——这就不是反射了,这是行为。刺激和响应之间多了一个”执行-反馈”的回路。
人的身体也是这么运作的。光有大脑,你”想”抬手但抬不了。信号得从运动皮层传到脊髓、到肌肉、到骨骼,手抬起来了,眼睛看到手抬起来了,视觉信号再回到大脑,大脑才知道”哦,我抬了”。这是一个闭环,不是单向的。
关键洞察:行为不是大脑的输出,行为是大脑+身体的联合输出。 大模型吐出的 token 不是行为,Harness 执行完、结果回灌后,整个 cycle 才算一个行为。很多人把 Agent 理解成”大模型+工具”,太简单了。应该是”大模型+身体”,身体不只是执行器,身体是行为回路的一部分。
集体反馈:身体的自我调节
人有一整套反馈机制是不经过大脑的。碰到烫的东西,手先缩回来,痛觉信号 80 毫秒后才到大脑。脊髓在做决策,不是大脑。
这个类比到 Harness 上特别有意思。好的 Harness 也有不经过大模型的反馈回路。比如:
- 请求超时了,Harness 自动重试,不用问大模型
- Token 快超限了,Harness 自动裁剪上下文,不用大模型操心
- 工具调用报错了,Harness 做简单的格式修正再试一次
- 速率限制触发了,Harness 直接排队等待
这些”脊髓级”的决策,不需要大模型参与。如果每个小事都问大模型,就像你每次手碰到烫的东西都先想想再缩——太慢了,而且没必要。
更深一层:身体还会给大脑提供”预处理过的信号”。视网膜不是把原始光子数据扔给视觉皮层,而是先做了边缘检测、颜色分离、运动方向判断。Harness 也做类似的事——把 API 返回的原始 JSON 解析、过滤、摘要之后再喂给大模型。身体不是管道,是预处理器。
思考的形成:没有身体的思考是幻觉
这是最反直觉的部分:我们觉得”思考”是纯大脑的事,但其实不是。
拿语言来说。你现在脑中读这句话的时候,你的声带肌肉在微弱地收缩。这不是比喻,是实验事实——思维过程中喉部肌电活动是可测量的。思考不是”无声的说话”,思考就是说话,只是音量调到了零。
更极端的例子:一个从小完全瘫痪、没有任何运动经验的人,大概率无法正常思考。不是大脑有损伤,是大脑没有身体来”练习”思维。皮亚杰说的感知运动阶段,不是儿童发展的一个”阶段”,而是认知的地基。
大模型的”思考”也有类似问题。纯大模型生成的文本,看起来像在思考,但其实是模式匹配的产物——它从训练数据里拼出了最”像思考”的 token 序列。只有当 Harness 把执行结果灌回来,大模型被迫面对”我刚才的判断对不对”这个问题时,真正的推理才有可能发生。
思考需要摩擦力。 纯内生式的思考容易空转——大脑自己跟自己说话,越说越顺,但可能越说越错。身体的反馈——“手没抬起来””代码跑不过””API 返回 500”——给思考提供了纠偏信号。没有这些摩擦力,思考就变成幻觉。
这也解释了为什么 Chain-of-Thought prompting 有效。CoT 不是在让模型”思考更多”,是在给模型一个虚拟的身体——把中间步骤写出来,就是让模型自己给自己制造反馈信号。步骤写出来、看得见、可以回溯,这就有了摩擦力。
反过来想:Harness 设计的认知启示
如果大脑=大模型、身体=Harness 这个类比成立,那设计 Harness 其实就是在设计一个”身体”。好的身体应该:
替大脑过滤噪音。 不是所有信号都值得灌进上下文。就像你的皮肤不会把每一丝微风都报告给大脑——阈值以下的东西直接忽略。Harness 的上下文管理应该有类似的感觉门槛。
有肌肉记忆。 重复执行的任务,不应该每次都让大模型重新推理。缓存、模板、预定义流程——这些就是 Harness 的肌肉记忆。走路不需要想先迈哪只脚,订机票也不需要每次都从头规划。
能报告自身状态。 饥饿、疲劳、疼痛——身体给大脑的信号不只是外部世界的,还有自身状态的。Harness 也应该告诉大模型”我的 token 还剩多少””这个 API 最近响应慢””上次类似的任务失败了”。自我感知是智能的基础。
能独立行动。 不是所有事都需要请示大脑。低风险的常规操作,Harness 自己做就行。高风险的、不确定的,才往上报。这是生物系统的基本设计原则——分层决策。
会犯错,也能从错误中恢复。 完美的身体不存在,完美的 Harness 也不存在。关键不是不出错,是出错后能快速恢复。免疫系统不问大脑就开干,有时候过度反应(过敏),但大部分时候是对的。Harness 需要类似的容错韧性。
一个不舒服的推论
如果身体决定了大脑的智商上限,那大模型能力的提升可能不是 Agent 进化的瓶颈——Harness 才是。
现在的趋势是拼命把大模型做大、做聪明,但给最聪明的大脑配一个笨身体,结果就是高位截瘫的天才——什么都知道,什么都做不了。反过来,一个中等智商的大脑配一个灵活、有记忆、能自主行动的身体,可能反而更”智能”——至少在实际任务上。
OpenClaw 的 Skills 系统、记忆系统、多通道集成——这些不是”外围工具”,这些是身体。身体越强,大脑的智力才能越充分地发挥出来。别光练脑子,得练身体。
这个类比当然不完美。大脑和身体之间的连接比任何 API 都复杂万亿倍,神经可塑性意味着大脑会重写自己来适应身体,而大模型的权重是固定的。但这些差异不影响核心论点:智能不是计算,智能是计算+行动的耦合。 你不能只升级 CPU,不管外设。