10年+团队管理总结:那些“升值”最快的运维,都不是技术最牛的

邹轶 2025-12-21 09:51:00
K8S还没玩熟,AI又来了...一个老运维的肺腑之言:比新技术更重要的是这5项“升值”能力。

 

前几天和一位运维老同事聊天,他说:

 

 
 

“干了这么多年的运维,现在看 K8S 新特性像看天书,刚毕业的小孩上手比我快,感觉压力好大呀,学也学不动了,想换工作也换不动。”

 
 

 

非常能理解这种焦虑 ——

 

OpenStack 刚摸熟,K8S 来了; 虚拟机经验还没焐热,云原生又变天; 现在又到处都是AI要淘汰这个淘汰那个的各种言论甚嚣尘上……

 

运维这行,技术像“快消品”,辛苦多年积累的技术经验过几年可能就没用。 而且还特别容易形成技术路径依赖,拿着锤子,看啥都像钉子一样。

 

可为什么有人能从一线执行,3 年就做到技术骨干,5 年带团队?

 

接触过以及自己带过这类优秀的年轻人,发现一个特点:技术这块并不是那么特别拔尖,而是沉淀了一些优秀的能力。

 

这些优秀的能力,结合他们的技术能力,去形成了自己的综合竞争力,形成了复利的效果。

 

他们先让自己“升值”,“升职”和“加薪”只是随之而来的必然结果。

 

接下来我们就来探讨下这些能力的养成。

 

一、运维人的 “复利能力” 进化路线

 

不拉扯那些神神道道的内容,我们直接用五张“能力卡片”,来看看这五项复利能力是如何进化的:

 

 

 
1、沟通能力 (Communication)

 

  • 初入职场: 把事说清楚

  • 职场进阶: 能成事

  • 最终收获: 领导力

 

 
2、解决问题能力 (Problem Solving)

 

  • 初入职场: 解决“单类问题”

  • 职场进阶: 不让类似问题再发生

  • 最终收获: 体系力

 

 
3、担当能力 (Ownership)

 

  • 初入职场: 完成任务

  • 职场进阶: 主动破局

  • 最终收获: 破局力

 

 
二4、抗压能力 (Resilience)

 

  • 初入职场: 自己不慌

  • 职场进阶: 能控全局

  • 最终收获: 控局力

 

 
5、持续精进能力 (Learning)

 

  • 初入职场: 学会“套路”

  • 职场进阶: 帮团队成长

  • 最终收获: 影响力

 

二、 5项能力怎么在工作中训练?

 

 
1、沟通能力:从 “说明白” 到 “成事者”

 

新手期别追求 “会说话”,先做到 “说明白,不添乱”。

 

错误示范:

 

  • 汇报故障:“服务挂了!”

     

  • 沟通变更:“在吗?我重启下服务哈?”

 

正确示范 (使用模型):

 

1)汇报故障 (结论-原因-案例-重申模型): 

 

“结论: web 服务宕机 10 分钟,已恢复; 原因: 数据库连接池满了; 案例: 刚才查日志发现连接数超了 500; 重申: 已扩容连接池,后续会加监控。”

 

2)沟通变更 (讲清事实-影响-方案-确认): 

 

“Hi,XX测试服务内存快满了,需要重启释放下内存,预计中断3分钟。打扰你测试了,看看方便操作吗?请确认。”

 

进阶案例:如何推动CDN 2.0 升级?

 

等你到了进阶期,要学会“用沟通推动成事”

 

最近正好在推CDN发布系统2.0的更新迭代,但是1.0当下运行还比较稳定,研发用得还不错。我们要迁移,研发担心投入过多配合时间,影响业务研发进度。

 

我们没去硬推,而是做了这几个沟通同步工作:

 

先展示痛点: 把“旧系统存在的痛点问题展示出来,比如应对并发吞吐的局限,项目一多就容易卡顿的问题”;

 

再介绍收益:“新系统不但解决了这些痛点,而且在使用体验上还进一步改进了以前UI体验”;

 

最后打消顾虑:“运维来主导,而且整体API和以前1.0完全兼容,不会占用大家太多时间,项目组只需要改下CI/CD的对应地址以及对应的账号和密码即可”。

 

这样就把事情顺利推动下去了,拿到了结果 ——这就是 “沟通的复利”。

 

 
2、解决问题能力:从 “case by case” 到 “不二过,不重复踩坑”

 

新手别满足于 “解决了这个问题就拉倒了”,要学会下钻多问几个为什么。

 

案例:GitLab服务器Hang住故障

 

最近GITLAB服务器连续hang住了两次,别只重启释放资源就完了,用“5 个为什么”查:

 

1)为什么hang住了?CPU满了;

 

2)为什么CPU满?有某个用户全量操作多个项目行为导致的;

 

3)为什么用户这种操作就会搞挂服务?系统资源不够应对这种突发;

 

4)为什么资源会不够?没有注意最近项目组持续有新人进入,会全量操作项目库;

 

5)怎么解决? 走变更流程,扩展资源临时缓解,后续对整体服务进行架构调整搞成分布式的模式,来应对这种突发的操作。

 

故障后写复盘报告,别只记“过程”,要写“下次怎么改”

 

进阶案例:云NAS存储动态扩容

 

进阶后,你要想“怎么让这类问题再也不发生”。

 

比如我们碰到一个云NAS存储的容量限制问题,影响了项目CI/CD做热更新。

 

那我们也不清楚项目对这个容量实际使用的情况,我们是扩100G还是扩200G? 扩100G怕还会满,扩200G可能也还会满,那怎么办?

 

我们找云厂商对齐,确认了可以做动态扩容。

 

那我们就设置一个动态的上限策略,这样来保证类似问题不要再重复出现。同时,我们再专门针对这个NAS的使用量找云提供一个接口,做好使用量监控,使用超过多少给出报警,避免最后占用太大容量,导致成本增加过多。

 

 
3、担当能力:从 “完成交办” 到 “主动破局”

 

新手期的“担当”很简单:把分配的活儿干好,再多走一步。

 

比如领导让你“扩容服务”,别只改完配置就交差:

 

多做 1 步: 检查扩容后的监控数据,看是否有瓶颈;

 

再多做 1 步: 更新部署文档,标清 “扩容步骤 + 注意事项”;

 

最后多做 1 步: 同步给研发 “已扩容,后续有问题找我”。

 

进阶案例:主动破局,节省云资源

 

等你成了骨干,要学会 “眼里有活儿,要主动去寻找价值点破局”。

 

举个最简单的栗子,发现公司云资源每月浪费 20 万,没人管这事。 你主动拉了个小群:

 

先统计:“各业务线闲置实例占比”;

 

再出方案:“仿真服务用按量付费,夜间自动关机,早上大家来了再自动开机”;

 

最后推动落地:半年省了 100 多万。

 

类似这种 “没人安排但重要” 的事,才是拉开差距的关键。 越主动、就越幸运,越能获得成长机会。

 

 
4、 抗压能力:从 “自己不慌” 到 “能控局”

 

新手遇到故障别慌,“按流程来”。

 

第一次独立处理告警,先深呼吸,打开 “故障处理 Checklist”:

 

先看监控,定位影响范围;

 

再查最近变更,有没有刚上线的代码;

 

15分钟无头绪或者搞不定,立刻 @上级 说 “现在情况是 XX,需要 XX 帮助”。

 

哪怕操作错了,别藏着 —— 越早说,损失越小。

 

进阶案例:故障控局

 

进阶后,你要成为团队的 “关键先生”。

 

还是举这个GITLAB服务hang住的故障。服务突然报503错误了,各个项目群都在喊503,访问不了,我们运维内部群大家都在忙着分析找问题原因。

 

我先在群里发:

 

“大家分头行事:

 

小A你先尝试直接重启下服务;

 

小B你把故障做下通报给各个项目群里面,让大家稍等,正在处理。”

 

其实大家都着急,但不能慌,越慌越容易错 ——自己保持冷静,团队就能冷静处理问题。

 

 
5、持续精进能力:从 “自己学会套路” 到 “帮团队成长”

 

新手期不用贪多,先练习 “快速形成套路技能”。

 

案例:为新服配置监控SOP

 

比如你是游戏运维,领导让你为一个新开的游戏服大区(比如 ‘XX一服’)配置监控。 别只在监控系统里点几下,把CPU、内存加上就完事了。

 

你得多做一步,写个简单的 SOP(标准作业流程) 文档:

 

“新服开区监控SOP:

 

基础监控: CPU、内存、磁盘(重点是日志盘)、带宽。

 

业务监控: ‘XX一服’的同时在线、支付成功率、DAU这3个核心指标怎么配。

 

常见问题: 如果‘同时在线’指标取不到值,去查xxx配置。”

 

把这个SOP形成团队知识库文档,这样你就逐步形成了自己的套路打法了。

 

进阶案例:推动团队游戏云原生建设

 

进阶后,你的“精进”要帮团队成长。

 

比如推进游戏云原生的建设,不是乱打一气,要找准突破点:

 

先做透一个项目: 围绕具体项目,入组展开云原生架构改造,从测试环境先搞,然后逐步过渡到线上。

 

再提炼最佳实践: 针对做透的项目,提炼出来一个最佳实践的打法。

 

再组织分享布道: 把云原生游戏建设的内容通过分享传播出去。

 

然后共创: 继续去跟进有意向的项目团队,一块推动游戏云原生改造共创。

 

最后复制: 逐步把这套打法复制到团队内部去,让其他运维同学借鉴参考。

 

你的经验,就变成了团队的“能力资产”。

 

三、最后说些心里话

 

看到很多年轻同学,把精力全放在“学新技术”上,根本没意识到这些软技能的养成。 像学百科全书一样的学法,什么方向都去学,恨不得把自己搞成全才。

 

在他们身上,我看到了自己以前的影子—— 盲目追热点技术,花了大量精力和金钱,被无良培训机构割韭菜,却很少深入思考:追的热点技术是不是真正能形成自己的持续竞争力,能不能给自己升值加薪?

 

我时常会想,要是以前能早点意识到这些软技能的养成就太有意义了。 所以现在在带团队的时候,我总会不厌其烦地去引导大家,帮他们去内化这些软技能。

 

技术是“武器”,是工具,但能让你走得远的,是“用武器,用工具去解决问题的能力” —— 这5项能力,今天练 1 分,明天就多 1 分底气,持续坚持下去,做时间的朋友,形成复利效应。

 

作者丨邹轶
来源丨公众号:逸行轶录(ID:gh_f71229431ee3)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告