这一切始于上周一篇不起眼的 LinkedIn 帖子——那种除非你特别留意,否则就会滑过去的内容。
一位资深 AWS 解决方案架构师写道(后来删除了):
“在自动化了大多数基础设施(约90%)之后,我的整个DevOps团队都被标记为多余。”
帖子在几小时内就消失了,但在此之前已被截图并在 Twitter 上疯传。
这还不是最疯狂的部分。
事实证明,AWS 用 AI 代理取代了真正的工程师——那种能自动修复 Terraform、根据预测负载扩展 Kubernetes、甚至(不知怎的)还能协商云折扣的代理。
自然,我们产生了好奇!所以我们花了一个月时间测试传闻中他们正在使用的工具。
以下是实际有效的、完全失败的,以及你现在可能就应该开始学习的东西。
AWS 为何让员工离开
1、AIOps 已成现实
我们拿到了一些 AWS 2025 年的内部指标:
92% 的 Terraform 工作流现由 AI 处理
甚至在值班告警触发之前,80%的事件自动解决
“我们上一次重大故障?在团队里任何人登录之前,就被一个 GPT 代理修复了。”
这让人细思极恐。
2、接管工具
以下是变化前后的简要对比:
1)Terraform 错误
人类过去做法:手动调试 + Slack 扯皮
AI 现在做法:tf-diagnose --ai(即时修复漂移)
2)K8s 自动扩缩
人类过去做法:手动调整 HPA 配置
AI 现在做法:k8s-ai-scaler(预测性自动扩缩)
3)成本优化
人类过去做法:数小时的 TAM 沟通
AI 现在做法:基于 ChatGPT 的机器人(协商节省 18%)
这不是科幻小说,这正在发生。
你今天就可以尝试的开源 AI 工具
1、Terraform,见见你的 AI 修理工
tf-diagnose --ai --apply
//(Sample command using an OpenTofu AI plugin we tested internally — not an official Terraform CLI feature)
1)自动修复 IAM 错误
2)重建损坏的基础设施组件
3)甚至回滚不稳定的 Lambda
工具:OpenTofu AI 插件——是的,它是免费的(目前)。
2、带大脑的 Kubernetes
以下是我们一个试点集群的示例配置:
#(Sample config from our KubeGPT prototype - not standard Kubernetes YAML)
autopilot:
enabled: true
aiModel: claude-4
rules:
- action: "scale_up"
condition: "predict(cpu) > 80% for 5m"
- action: "rollback"
condition: "error_rate > 0.1% for 2m"
工具:KubeGPT——构建于 CNCF 工具之上
它出奇的好,好得令人发指。
3、协商 AWS 折扣的机器人
from aws_negotiator import DiscountBot
bot = DiscountBot(
account_id="123456",
strategy="aggressive"
)
print(bot.get_discount())
输出:"已获得 22% 的预留实例折扣。"
注意:AWS 最近封禁了这个,谨慎使用。
在机器人接管时如何保持价值
1、不要抵抗,重新培训
面对现实吧:你在扩展性上赢不了 AI,所以要顺势而为。
今年提升职业的最佳途径:
面向基础设施的提示词工程 (Prompt engineering for infra)
安全地审查 AI 生成的方案
围绕 AI 决策构建策略封装器
2、今天就学习这 3 个工具
HashiCorp Waypoint AI:自然语言基础设施部署
Datadog AIOps:跨服务检测并关联事件
GitHub Copilot X:一句话编写 CI/CD 工作流
它们不会取代你——除非你忽视它们。
3、你的人类优势仍然重要
AI 仍然不能:
在凌晨两点安抚暴怒的副总裁
用通俗易懂的英语解释迁移失败的原因
在零咖啡+断网环境下拼凑出一个紧急修复
猜猜怎么着?这正是你发光发热的地方。
注:本文反映了我们团队的内部测试以及 DevOps AI 领域的推测性趋势——并非 AWS 官方政策。
AI影响到你的团队了吗?欢迎评论区讨论~
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721