写在前面
在现有的DevOps实践上+AI,并不是真正的技术升级。
我看到很多企业仅仅是在已有的工具中集成AI,以实现工作提效——用AI做代码审查(Code Review),用AI生成测试用例和用户故事。这看似高效,但却忽略了问题的本质。Code Review、用户故事等实践只是手段,不是目的。如果你只是在用AI更快地完成过去做的任务,那么大概率是用错了方向。
这背后是一个更严峻的挑战:企业曾投入巨资和数年心血构建的工具平台,这些宝贵的数字资产,在AI时代正迅速变成沉重的历史包袱。它们为人类的点击和线性思维而设计,却无法满足AI Agent对机器可读契约、动态执行空间的需求。在旧地基上做“+AI”的表面文章,根本无法支撑起AI这座全新的大厦。我们是该任由这些昂贵资产僵化,还是寻找第三条路?
真正的出路在于一次从“自动化”到“授权”的思维革命:从面向人类构建到面向AI构建平台,从自动化升级到AI自主的授权。这彻底重塑了平台理念与人机关系。在这个未来愿景中:
AI具备自主驱动能力,能基于高层业务目标,自主编排并执行端到端的DevOps活动,深度参与从模糊概念到价值交付的全过程。
与此同时,人类团队回归其核心价值创造角色,专注于“做什么”和“为何做”的战略创新,而AI平台则高效执行“如何做”。人类的智慧转向评估AI行为并应对未知挑战。
如果我们还用过去服务人类开发者的思路去服务AI,无异于给火箭修登月的梯子。
你的平台,为谁而建?
我们先来做个对比。
人类开发者关心什么? 精美的UI、清晰的文档、顺滑的工作流。他们希望平台像个贴心的管家。
AI代理关心什么? 机器能看懂的API契约(比如OpenAPI规范)、毫秒级的响应延迟、结构化的错误信息、不需要图形界面的认证流程。它希望平台是个精准、高效的武器库。
承认并服务好这位新客户,是平台工程迈向2.0的起点。这意味着,我们必须把面向 AI 的交互设计,放到和面向人类同等重要的战略高度。
为AI构建平台,核心是一次理念升级:从自动化走向授权。
自动化,就像是给机器一本详细的操作手册,上面写着“第一步,拧螺丝A;第二步,拧螺丝B”。机器是老实的执行者,但手册上没写的,它一概不会。
授权,则是告诉机器一个目标:“把这台宜家椅子装好”。机器需要自己看懂说明书(API契约),规划步骤,发现螺丝拧反了能自己纠正,甚至发现少了零件会主动报告。
在授权模式下,AI不再是被动的工具,而是能干活、能思考、能解决问题的“智能系统”。这能把我们从大量重复的、确定性的工作中解放出来,真正聚焦在高阶设计、产品创新这些更有价值的事情上。
这两种模式的区别,决定了平台的一切:
搭建授权式平台的四大支柱
要让AI这个新队友能施展拳脚,我们的平台必须在四个关键领域进行“暴力”升级。
“黄金路径”曾是平台工程的骄傲,它为开发者铺设了一条标准化的康庄大道。但问题是,AI代理是个天生的“越野玩家”,它需要在广阔的规则边界内自由探索,而不是被限制在一条固定的柏油路上。
因此,授权式平台要做的第一件事,就是用动态策略取代静态的“黄金路径”。
这意味着平台提供“你应该这么做”的剧本,同时,又定义“你可以做什么”和“你绝不能做什么”的动态规则。比如,平台可以规定:“上线生产环境前,须通过质量要求”,但具体是否需要人工代码评审、几个人评审,由AI代理根据上下文、历史数据自行决定。这就像给了AI一张地图和交通规则,而不是一条固定的导航路线。
如果说动态策略是平台的“交通规则”,那API就是AI代理和世界沟通的“语言”。当AI成为API的主要用户时,我们设计API的方式必须彻底改变。
Agent优先:为机器设计API
Gartner有个大胆的预测:到2027年,API的主要消费者将是AI,而不是人。这意味着,我们必须从“给人看”转向“给机器读”。一份机器可读的契约(比如OpenAPI规范),就是“Agent-First”API的灵魂。它就像一份详尽的产品说明书,AI代理拿到手就能明白这个工具是干嘛的、怎么用。
MCP与内部“工具市场”
但是,如果企业里有100个AI代理和1000个工具,让它们之间两两配对,会产生一个10万次方的“集成地狱”。
为了解决这个问题,**模型上下文协议(Model Context Protocol, MCP)**这类标准化方案应运而生。你可以把它理解成一个“万能转换插头”,任何符合MCP标准的AI,都能使用任何符合MCP标准的工具。
这对平台团队来说,是一个千载难逢的机会:建立一个内部的MCP工具市场。平台团队的角色,将从“所有工具的制造者”,转变为“工具生态的运营者”。你们负责:
封装现有工具:把公司里成熟的CI/CD、测试、监控等工具,用MCP包装一下,放上货架。
开放接入:让业务团队也能把他们开发的工具、甚至是业务系统上架,供所有AI使用。这样一来,平台就从一个封闭的工厂,变成了一个繁荣的、可扩展的“AI工具应用商店”。
把任务授权给AI,就像是给了实习生一把服务器的钥匙,我们既希望他能干活,又怕他搞破坏。AI的非确定性带来了新的安全风险,传统的、防止人犯错的“护栏”已经不够用了。
授权式平台必须采用更激进的安全范式——遏制。核心思想就八个字:“默认不信,强制隔离”。我们不指望AI永远正确,而是要确保它就算“发疯”,造成的破坏也被限制在最小范围内。
落地“遏制”范式,主要依赖两大支柱:执行隔离与身份管控。这意味着将AI的关键执行都强制关入“沙箱(Sandbox)”,并为其建立一套独特的、严格的身份管理体系。
独立的AI服务账户:为每个AI代理建立专用的服务账户。这能将AI的操作日志与人类的日志彻底分离,确保问题发生时能够清晰追溯、快速定位,并在AI失控时及时封锁账户。
M2M认证与动态令牌:杜绝使用长期有效的静态密码,必须通过OAuth 2.0这类M2M认证标准,为AI提供动态生成、用完即毁且权限最小化的临时令牌。“护栏”的目的是防止好人犯错,而“隔离舱”的目的是让“坏人”或“失控的人”无法作恶。这是两种完全不同的安全哲学。
在授权模式下,理解AI“为什么”这么做,比知道它“做了什么”更为重要。传统监控工具在AI代理面前几乎是“睁眼瞎”。因为AI的决策路径不是线性的,它可能会重试、会分叉。用传统工具去调试AI,就像看一部没有字幕的外语电影,你只知道发生了什么,但完全不知道为什么。
平台必须投资于深度可观测性,其核心是利用OpenTelemetry GenAI这类新兴标准,把AI代理的完整“思考链”(Chain-of-Thought)给记录下来。这意味着,我们的监控系统需要能清晰地回答:
是谁(什么事件)触发了AI?
它为了达成目标,调用了哪些工具?
它调用工具时,传入的参数是什么?返回的结果又是什么?
最关键的:它当时是怎么“想”的?(把AI的推理过程作为追踪日志的一部分)
只有看清了AI的“心思”,我们才能真正地调试、评估和优化它。
你的平台AI友好吗?
一份拿来即用的体检表
理论讲完了,现在该来点实际的。你的平台在AI时代到底处于什么水平?下面这个成熟度模型,可以帮助你快速做个“体检”。
L1 - 基础自动化 (Foundational Automation):平台刚脱离手工作坊模式。有一些零散的自动化脚本,例如用于构建或部署,但AI基本只能执行预设好的简单任务,没人看着就会出乱子。
L2 - 标准化与辅助增强 (Standardized & AI-Augmented):有了一条标准化的CI/CD流水线,流程和门禁都已明确。AI开始在特定环节“打辅助”,例如用AI Code 扫描提供建议,但它仍是一个被动的工具。
L3 - AI协同与端到端打通 (AI Collaboration & End-to-End):这是一个关键的跃升。AI不再只是个辅助工具,而是实现了端到端的打通。AI生成的代码或配置,能够自动触发并无缝调用系统完成后续的集成、测试和部署,实现了“智能化的软件交付黄金之路”。
L4 - AI自主驱动与智能编排 (AI-Driven & Intelligent Orchestration):平台的设计优先考虑AI(Agent-First)。AI具备了自主驱动能力,能够理解系统的复杂关系,基于高层目标(例如“提升欧洲区服务的稳定性”)自动编排和执行一系列复杂的DevOps活动。API、安全和日志都是为AI量身定做的。
L5 - AI原生与完全自治 (AI-Native & Fully Autonomous):这是平台的终极形态。整个生命周期高度智能化,AI能够理解模糊的需求,自主规划、设计、执行和优化整个DevTCOps流程,甚至能够自我进化。人类的角色转变为最终价值的验收者和最高目标的设定者。
你可以用下面这张AI友好度评估模型(精简版),给你的核心工具逐项打分,看看它们处于哪个AI友好度等级。
|
|
|
|
|
|
|
目标状态描述 |
|
|
|
|
|
|
接口可程序化程度 |
|
|
|
|
|
|
配置与管理的自动化水平 |
|
|
|
|
|
|
状态透明性与可观测性 |
|
|
|
|
|
|
错误处理与韧性 |
|
|
|
|
|
|
安全性与合规性 |
|
|
|
|
|
|
文档与开发者体验 |
|
|
|
|
|
|
生态系统与集成性 |
|
|
|
|
|
|
怎么用这张表?
组个队:拉上工具平台建设相关的同事。
圈定范围:先从CI/CD、Kanban 这些核心工具开始。
打分:诚实地给每个工具在每个维度上打分。
找差距:看看离L4(AI自主驱动)这个关键节点还差多远,瓶颈在哪。
定计划:针对瓶颈,制定改造计划,优先解决那些最卡脖子的问题。
写在最后:给技术领袖的行动指南
这场变革已经开始,观望就是落后。作为技术领袖,这不只是一次技术选型,更是一场关乎未来十年竞争力的战略布局。以下行动指南,旨在帮助您驾驭这场变革:
1、先统一思想,再动手:我们面临的不是一次“效率优化”,而是一场从“自动化”到“授权”、从人类驱动向AI驱动的根本转变。我们的目标不是用AI更快地做旧事,而是赋能AI做我们过去做不到的事。这个共识是所有行动的前提。
2、诚实地做一次“AI体检”:别凭感觉。立即组织团队,使用本文提供的AI友好度成熟度模型,对现有平台和工具进行一次全面的、诚实的评估。搞清楚我们身在何处(L1还是L2?),才能规划好要去往何方(L4及以后)。这份评估报告将是您争取资源、制定路线图最有力的依据。
3、升级架构治理,推广AI原生脚手架:改造存量系统成本高昂,但我们可以确保所有“新生”应用都是AI友好的。平台团队应联合架构团队升级新的应用脚手架,用这些新脚手架构建的应用,从诞生之初就应该天然地对AI友好——默认提供机器可读的OpenAPI契约,支持结构化的错误信息,并为集成MCP协议等高级功能预留接口。
4、重新设计你的平台核心能力:
接口层面:发起一场“Agent优先”的API文化运动。要求所有新API必须提供机器可读的OpenAPI契约。启动MCP协议的试点,为未来的“工具市场”播下种子。
工作流层面:投资“策略即代码”(Policy-as-Code)技术,逐步用动态、灵活的策略引擎,取代僵化、固定的“黄金路径”。
安全层面:将安全理念从“护栏”升级到“遏制”。把为AI提供独立的、沙箱化的、最小权限的“隔离舱”作为平台的基础能力,而不是事后补丁。
监控层面:投资深度可观测性,特别是遵循OpenTelemetry GenAI标准。我们的目标不应满足于看到系统的表象,而是要能清晰地“看穿”AI的思考过程。
5、从一个最小可行平台(MVP)开始:不要试图一步建成终极平台。选择一个高价值的场景(例如,一个自主的故障诊断Agent),围绕它构建一个端到端的“授权式”平台MVP。用这个MVP的成功,来验证理念、积累经验、赢得支持。
AI正从个人的AI Copilot,进化到协同的Team AI,其终局必然是驱动核心流程的Company AI。在这样的未来,平台的用户何必是人?我们今天构建的应用,未来就是为了增强另一个AI的能力。 平台工程2.0的使命,不仅要承载传统的软件1.0,更要支撑起企业软件2.0(以数据为中心)和软件3.0(以模型为中心)的工程化落地。若想真正实现AI驱动的研发价值流,这条路,是必经之路。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721