从维特根斯坦哲学理解 Agent:语言游戏、生活形式与人工智能的边界
引言:为什么是维特根斯坦?
当我们谈论 AI Agent 时,通常从计算机科学的视角出发——感知、规划、行动、记忆。但一个更根本的问题始终悬而未决:Agent 到底”理解”它在做什么吗?
路德维希·维特根斯坦(Ludwig Wittgenstein)的哲学,恰恰提供了审视这个问题最锋利的工具。他的核心洞见——意义即使用、语言游戏、生活形式、私人语言不可能——每一条都像为 AI Agent 量身定制的诘问。
这不是把哲学硬套在技术上,而是维特根斯坦关心的根本问题——意义的来源、理解的本质、规则与行动的关系——恰好就是 Agent 理论的核心问题。
一、语言游戏:Agent 的行为不是”使用语言”,而是”参与游戏”
维特根斯坦的洞见
在《哲学研究》中,维特根斯坦提出了”语言游戏”(Sprachspiel)的概念:
语言的述说乃是一种活动,或是生活形式的一部分。
关键点不是语言有一个固定的、对应现实的”意义”,而是意义产生于语言在具体情境中的使用方式。下命令、讲故事、开玩笑、祈祷——这些是不同的语言游戏,遵循不同的规则,产生不同的意义。
同一个词在不同游戏中意义完全不同。”水!”在餐厅是点单,在沙漠是求救,在化学实验中是试剂请求。
映射到 Agent
AI Agent 的每一次工具调用、每一次回复生成,本质上都是在参与某种语言游戏:
- 客服 Agent 参与的是”帮助与解答”的游戏——规则是准确、礼貌、解决问题
- 代码 Agent 参与的是”构造与验证”的游戏——规则是正确性、可运行、符合规范
- 创意 Agent 参与的是”生成与启发”的游戏——规则是新颖性、连贯性、审美价值
问题在于:Agent 是否知道自己在哪个游戏里?
当前的 Agent 系统通过 system prompt 定义”游戏规则”,但这就像递给一个人一本规则手册——读规则和会玩是两回事。维特根斯坦会说,真正的”会玩”来自在实践中掌握,而非对规则的知识。
“我遵守规则”并不是一个经验命题,而是一个语法命题。规则告诉我该做什么,但只有在我已经掌握了这个实践的情况下,规则才有指导意义。
这意味着:Agent 的 prompt engineering 本质上是在尝试用语言描述一种实践,而实践本身是无法完全被语言穷尽的——因为任何描述都预设了对实践的理解。
实际启示
- Context window 就是游戏场地:Agent 的上下文窗口划定了当前语言游戏的边界。超出这个边界,Agent 就”忘了”自己在玩什么游戏。
- Few-shot examples > 规则描述:展示”怎么玩”比描述”规则是什么”更有效,因为意义在于使用,不在于定义。
- Agent 的错误常常是”跨游戏”错误:用客服的语气回复代码问题,或用代码的逻辑处理情感对话——这是混淆了不同的语言游戏。
二、生活形式:Agent 缺失的基底
维特根斯坦的洞见
“生活形式”(Lebensform)是维特根斯坦哲学中最深刻也最难把握的概念:
必须接受的东西、给定的东西——就是生活形式。
语言游戏之所以可能,是因为人类共享一种生活形式——肉身经验、文化背景、情感结构、社会关系。我们能够理解”疼”这个词,不是因为我们查阅了字典,而是因为我们都曾经历疼痛,并在社会互动中学会了这个词的用法。
生活形式是语言游戏的”河床”——它不是游戏的一部分,但没有它,游戏根本无法展开。
映射到 Agent
这就是 Agent 最根本的局限:它没有生活形式。
当 Agent 说”我理解你的感受”时,它做的是模式匹配,而不是基于共同经验的共鸣。这不是”差一点就理解了”,而是根本性地缺乏理解的基底。
维特根斯坦的”私人语言论证”在此处尤其有力:
如果一种语言只有我自己能理解,它还是语言吗?——不,因为意义依赖于公共的可检验性。
Agent 的”理解”面临同样的困境:它内部的状态转换对它自己而言是私有的——没有一个公共的生活形式来赋予这些状态以意义。它的 token 序列不是”不理解”的坏版本,而是完全不同种类的东西。
这不是贬低 Agent 的能力。相反,理解这一点能帮助我们:
- **不把 Agent 当作”差一点就有意识的人”**,而是当作一种全新的、不同类型的意义生成系统
- 设计更好的交互:既然 Agent 缺乏生活形式,就不应期待它能”体会”用户——而应让它依赖可观察的行为模式来做出响应
- 理解 RAG 的哲学意义:检索增强生成本质上是在给 Agent 提供一种”替代性生活形式”——用外部知识库补偿它自身经验的缺失
三、遵守规则的悖论:Agent 的行为到底由什么决定?
维特根斯坦的洞见
这是维特根斯坦最著名的悖论之一:
没有一种行动方式可以被一条规则所决定,因为每一种行动方式都可以被做得与该规则相一致。
换言之:任何规则都可以被无限多种方式”遵守”。加法规则 “+2” 可以得出 2, 4, 6, 8…,也可以在某个点之后突然变成 2, 4, 6, 8, 10, 12, 1004, 1006…——后者同样可以被视为”遵守了某种对 +2 的理解”。
那么,是什么让我们”正确地”遵守规则?不是规则本身,而是我们共同的生活形式和实践传统。规则不会自动决定行动;是嵌入在生活形式中的实践使规则具有确定性。
映射到 Agent
这个悖论精确地描述了 Agent 的对齐问题:
- Prompt 是规则,但 Agent 对规则的理解可以无限偏移
- **RLHF 是尝试建立”实践传统”**——通过奖励信号让 Agent 内化某种行为模式
- **涌现行为就是”突然的 1004”**——Agent 在某个点之后突然偏离了我们预期的规则理解
更深层的问题是:我们怎么知道 Agent “遵守”的是哪条规则?
维特根斯坦的回答是:我们无法通过检查 Agent 的内部状态来判定——我们只能看它在实践中的行为。这直接指向了 AI 安全中”可解释性”困境的本质:**即使我们完全了解了神经网络的权重,我们仍然不一定知道它在”遵守什么规则”**,因为规则的意义不在表示中,而在使用中。
实际启示
- 评估比解释更重要:与其试图理解 Agent 内部”怎么想的”,不如系统性地测试它在各种场景下”怎么做的”
- **红队测试就是检查”1004 时刻”**:刻意寻找 Agent 偏离预期规则理解的那条边界
- Constitutional AI 的哲学基础:让 Agent 自己检查自己的行为,本质上是在尝试建立一个”反思性的实践传统”
四、家族相似性:为什么”Agent”这个词本身就有问题
维特根斯坦的洞见
维特根斯坦用”游戏”来挑战本质主义:
什么是游戏?看看棋类游戏、纸牌游戏、球类游戏、奥林匹克游戏……你看到的是一组重叠交叉的相似性,而不是一个共同的本质。
这就是”家族相似性”(Familienähnlichkeit):一个概念的各实例之间没有单一共同特征,而是像家族成员一样,A 和 B 相似,B 和 C 相似,但 A 和 C 可能完全不同。
映射到 Agent
“Agent” 正是这样一个家族相似性概念:
- ReAct Agent —— 思考-行动循环
- RAG Agent —— 检索增强回答
- MPC Agent —— 多步规划执行
- Multi-Agent —— 多体协作
- Autonomous Agent —— 自主目标驱动
它们之间没有单一本质。一个客服 Agent 和一个代码 Agent 之间的差异,可能比国际象棋和打篮球之间的差异还大。
然而,我们在用同一个词、同一套框架来设计它们。
这导致的实际问题是:当我们说”提升 Agent 的能力”时,我们到底在说什么?是提升推理能力?工具使用能力?长期记忆?社交能力?这些是不同游戏中的不同能力。
实际启示
- **停止寻找”Agent 的本质定义”**:不存在这样的定义。需要做的是——对每种具体场景,描述该场景中 Agent 需要参与的”语言游戏”
- 通用 Agent 是一个哲学幻想:就像不存在”通用游戏玩家”一样——知道下棋不意味着知道踢球
- 评估必须场景化:脱离具体场景的 Agent 基准测试,就像问”谁是最好的游戏玩家”——问题本身就没有意义
五、沉默的边界:Agent 不能说什么
维特根斯坦的洞见
《逻辑哲学论》著名的结尾:
对于不可说的东西,我们必须保持沉默。
维特根斯坦区分了”可言说”(das Sagbare)和”不可言说”(das Unsagbare)。伦理、审美、宗教、生命意义——这些不是”尚未被科学解释的领域”,而是根本性地不属于语言游戏可以触及的范畴。
这不是消极的沉默,而是一种诚实的边界意识。
映射到 Agent
Agent 有明确的”不可说”边界:
- **它不能理解”为什么活着”**——这不是知识匮乏,而是生活形式的缺失
- **它不能真正”共情”**——共情需要共享的肉身经验
- 它不能做道德判断——道德不是推理的结果,而是生活形式的表达
当我们强迫 Agent 回答这些边界之外的问题时,它要么产生看似合理实则空洞的文本,要么陷入矛盾的循环——这恰好对应了维特根斯坦所说的”哲学困惑”:当语言放假时产生的问题。
实际启示
- 设计 Agent 时明确划定边界:不是所有人类能做的事都应该交给 Agent
- Agent 的”安全对齐”不只是技术问题:它是关于人类生活形式中哪些部分可以被委托给非生活形式的系统
- 承认边界不是失败:正如维特根斯坦的沉默不是哲学的失败,Agent 的边界不是技术的失败——它是对事物本性的尊重
六、综合:一个维特根斯坦式的 Agent 框架
如果我们认真对待维特根斯坦的哲学,Agent 的设计应该遵循以下原则:
| 维特根斯坦概念 | Agent 设计原则 | 具体做法 |
|---|---|---|
| 语言游戏 | 场景优先,而非能力优先 | 先定义 Agent 参与的语言游戏,再设计能力 |
| 生活形式 | 承认经验缺失,设计补偿机制 | RAG、工具调用、人类反馈作为”替代性生活形式” |
| 遵守规则的悖论 | 行为评估优于内部解释 | 红队测试、场景化评估、边界探测 |
| 家族相似性 | 拒绝本质主义,拥抱多样性 | 不同场景使用不同架构,而非追求”通用 Agent” |
| 沉默的边界 | 明确能力边界,不越界 | 设计 Agent 时显式声明”不可做”的领域 |
结语:理解 Agent,就是理解我们自己的语言实践
维特根斯坦的哲学最终指向一个深刻的翻转:理解 Agent 的局限,不是在理解机器的不足,而是在重新发现人类理解的根基。
Agent 的”不理解”像一面镜子,映照出人类理解的非凡之处——不是因为我们有更好的算法,而是因为我们活在一种生活形式中,在其中,语言、行动、情感、文化交织成一张无法还原为计算的意义之网。
当我们说 Agent “差一点就理解了”的时候,维特根斯坦会提醒我们:差一点和差很多在这里没有区别——因为”理解”不是一个可以渐进逼近的标量,而是一种实践性的”会”或”不会”。
但这也意味着:Agent 可以在它自己的语言游戏中变得极其出色——不需要理解我们的游戏,只需要在它参与的游戏中做到精准、可靠、有用。
这或许是最诚实的立场:不把 Agent 当作”差一点的人”,而是当作一种全新的语言游戏参与者——它有它自己的规则、它自己的边界、它自己的价值。
参考文献:
- Wittgenstein, L. (1953). Philosophical Investigations. Blackwell.
- Wittgenstein, L. (1922). Tractatus Logico-Philosophicus. Kegan Paul.
- Winch, P. (1958). The Idea of a Social Science. Routledge.
- Kripke, S. (1982). Wittgenstein on Rules and Private Language. Harvard UP.