钉钉 AI 助理平台核心技术实践：从拟人化开发到 Agentic Workflows

2026-07-03

钉钉 AI 助理平台核心技术实践：从拟人化开发到 Agentic Workflows

企业软件在解决共性需求时游刃有余，但面对海量个性化定制往往成本高昂。随着大模型技术的爆发，智能化成为破局关键。然而，从炫酷的 AI 概念到真正可用的业务应用，横亘着巨大的鸿沟。本文将拆解钉钉 AI 助理平台的核心技术实践，探讨如何通过工程化手段让 AI 真正在企业场景中落地生根。

核心问题与挑战

将 AI 助理引入企业级应用，我们面临着四座大山：

定制成本高：To B 产品聚焦共性需求，而企业效率提升高度依赖个性化定制，传统开发模式成本极高。
可用性不足：大量 AI 应用停留在“聊一聊”或简单知识问答的层面，缺乏 360 度无死角的实用可用性，难以切入核心业务。
计算不稳定：LLM 擅长推理但不擅长精确计算，直接用大模型处理复杂业务逻辑极易出现幻觉和结果不可控。
接入痛点：传统 Webhook 接入方式要求暴露公网 IP、管理 TLS 证书及处理内网穿透，安全风险与开发门槛双高。

方案与实践

拟人化开发与 LUI/GUI 融合

为了降低定制门槛，开发模式必须演进。我们从全代码、低代码，走向了 Agent 拟人化开发。通过拟人化的 AI 助理连接企业的数字化底座（人、财、物）与业务场景，让流程定制像给助手派发任务一样简单。

在交互层面，纯粹的 LUI（自然语言交互）虽然灵活但存在模糊性，而纯粹的 GUI（图形界面）虽然确定却缺乏灵性。我们的解法是 LUI 与 GUI 融合，坚持实用性与确定性优先于概念创新。当 LUI 遇到模糊意图或需要精确输入时，无缝中断并唤起 GUI 组件（如日期选择器、搜索列表）进行确认，确保操作闭环的确定性。

技能打磨：大量工程，少量算法

AI 助理的能力取决于其掌握的技能，而技能打磨的核心原则是：不稳定的技能数量再多也是零。

以日程安排为例，LLM 负责理解“帮我明天下午拉一个两小时的会议”的意图，但具体的时间计算、冲突检测、人名匹配，必须交由工程代码执行。我们坚持“大量工程，少量算法”，只在 LLM 具备稳定优势的推理环节引入算法，其余精确计算环节全部用工程兜底。

在技能开发的具体实现上：

声明式 API 与 Grounding：采用兼容 OpenAPI Specification (OAS) 的声明式 API 设计，降低开发门槛。通过 Grounding 扩展机制（如 x-dingtalk-context），精准解决上下文注入、时间/人名实体识别以及不可伪造操作人身份的问题。
Stream 模式替代 Webhook：全面升级为 Stream 模式接入，实现零公网 IP、零证书管理、零网关部署。彻底消除了公网暴露风险，将开发者从繁琐的底层网络配置中解放出来。

自定义 Planning、安全与多场域

面对复杂业务，单一的 Function Call 往往力不从心。我们类比自动驾驶架构，构建了 Agent 的感知-执行-算法引擎框架，并引入了自定义 Planning 机制：

快慢思考结合：针对准确性要求高的场景启用“慢思考”（多步推理验证），针对简单查询启用“快思考”（直通模式），在性能与准确性间取得平衡。
全链路可干预：提供全链路的 Planning 干预能力，开发者可以在推理、执行、反馈各环节插入硬性规则，避免 LLM 陷入死循环或偏离业务约束。

在安全与多端投放方面：

委托权限机制：AI 助理的权限严格限制在“用户授予助理的权限”与“用户自身权限”的交集内，确保助理代操作时绝不越权访问数据。
影子账号体系：为 AI 助理分配影子账号，使其能够在钉钉、微信、公众号等多端多场域中以统一的身份存在和运作，打破平台壁垒。

原则/方法论沉淀

在钉钉 AI 助理平台的实践中，我们沉淀出以下工程原则：

明确边界，实用优先：AI 应用必须有明确的能力边界，不画大饼，实用性与确定性永远优先于概念创新。
质量为王，不稳定即零：技能打磨不能只看数量，不稳定的技能对用户体验是毁灭性的，规模必须让步于质量。
大量工程，少量算法：认清 LLM 的能力边界，只在稳定推理环节引入算法，精确计算与业务校验交由工程解决。
权限交集，安全底线：AI 助理权限必须严格收敛于用户授权与系统权限的交集，守住企业数据安全红线。

总结与行动建议

企业软件正经历从信息化、数字化向智能化的演进，开发模式也从传统全代码走向 Agent 拟人化开发。未来的工作流将从人工硬编码编排，走向由 LLM 自动推理驱动的 Agentic Workflows。

行动建议：在当前阶段，不要盲目追求 AI 的全能，而是通过工程化手段为 LLM 兜底，打磨出 360 度可用的核心技能。利用声明式 API 与 Stream 模式降低接入成本，通过自定义 Planning 掌控复杂推理，逐步从工程化编排向智能化推理演进。

开放问题与延伸方向

声明式 API 与 Grounding 的兜底策略：当遇到未覆盖的模糊实体或跨系统指代时，系统是降级处理还是拒识？这直接关系到系统鲁棒性与用户体验的平衡。
Stream 模式的高并发基准：零公网暴露的 Stream 长连接在极高并发下的保活容量，以及弱网环境下的重连容忍基准数据，是评估该架构生产可用性的关键。
“重工程轻算法”的泛化隐忧：工程兜底保证了当前稳定性，但长期是否会陷入过度硬编码的泥潭，从而削弱 AI 本身的泛化红利？需警惕技术债务的积累。
影子账号的失控感与责任归属：用户是否会因“AI 代替我操作”产生失控感？出错时责任如何界定？这是产品信任度建设必须回答的问题。
自定义 Planning 的冲突死循环：全链路可干预带来极高运维成本，当硬性干预规则与 LLM 推理结果冲突时，系统如何避免死循环或决策瘫痪？干预框架需设定明确的熔断机制。
LUI/GUI 融合的效率悖论：在层级极深或逻辑极复杂的业务流中，LUI 的模糊性是否会导致 GUI 的频繁打断，反而降低操作效率？需要界定 LUI 的适用边界。
委托权限的动态最小特权：权限交集机制能否进一步演化为动态的“最小特权凭证”，成为 B2B SaaS 在 AI 时代的数据安全新范式？极具行业推广价值。
快慢思考的边缘计算启发：快慢思考的 Planning 架构，为 Agent 在资源受限的边缘计算场景下，提供了关于计算卸载与响应优先级调度的有益启发。
替代 Stream 的轻量方案：除了长连接，基于零信任架构的反向代理或边缘节点中转，是否可作为解决 Webhook 公网暴露痛点的更轻量替代路径？
从拟人化到拟组织化：除了单 Agent 开发，是否可探索“拟组织化”的 Multi-Agent 协同，让不同 AI 助理模拟企业部门间的协作与审批？这指向了未来复杂业务流的解法。
向 Agentic Workflows 跨越的关键：从“重工程干预编排”向“自动推理”演进，最关键的跨越节点是底层模型推理能力的突破，还是工程干预框架的渐进式解耦？这决定了当前技术投资的侧重点。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true