最近在知乎上刷到一个经典问题:
自己亲手引发运维事故是一种什么样的体验?
在众多搞笑而又心酸的回答中,有一位网友的总结堪称一部“运维编年史”,他分享了从2003年至今,自己职业生涯中亲手引发的、或亲身经历的各类运维事故。
里面有早年机房的野蛮生长,有上云路上的摸爬滚打,也有组织架构变动带来的啼笑皆非,从物理服务器到云端容器,从拔错网线到误删数据库……剧情之离奇、教训之深刻,足以让每一位同行感同身受,又忍俊不禁。
以下是正文内容:
03年
上了个物理服务器,交付用户方便,密码设置了个123456,结果用户1个月后打电话来,说服务器登陆不上,遂跑机房一顿操作改密码,登陆上去一看,机器被黑客挂成BT服务器,收获满满一硬盘 AV……
04年
过年机房值班巡检,看到一个网线虚插在交换机上,交换机灯都没亮,以为是松动……顺手插紧,还喜滋滋的记录一个故障……然后几百万游戏用户无法付费……把支付服务器插环路了。事后调查:我们设备管理比较严格,审批网线很麻烦,管支付的兄弟申请的网线假装插在机器上,以应付我们巡检时候看到闲置的网线回收掉……
05年
在机房交付完成后等回复,交换机上插了个口下小电影,等来电话说网速突然变慢。排查到最后,排查到自己电脑下迅雷把交换机流量跑满……然后自己笔记本还下死机了,网络速度快于硬盘存储速度……
06年
历史原因,机房办公室角落堆了个插电的积满灰尘的4U服务器,飞线过来的,办公室里所有人都不知道干啥用的,于是一直觉得没啥用,也没标签,但是因为太重也懒动他。某日电信领导来视察,电信员工让我们打扫整理办公室。
然后把那台机器网拔了,卷的整整齐齐……然后……然后知道他是全公司多因子登陆认证服务器,几千人休息了4小时……上头追查下来,据说以前是个测试环境,没人知道几时转正的,而且还是个单点……
07年
公司上新项目,来了400台物理服务器,以为和以前都是裸机来了就搬上架,通电联网PXE就好了,就和领导预估了时间,领导汇报给他的领导,同步给应用部门……结果来了2台集装箱卡车,来的时候是全新带包装的2U满配,往机房院子里一卸就走了……然后几个人拆箱子拆吐了(这里不是形容词,是真的干吐了,几十斤的服务器拆包装,抱起来拆泡沫,再拆静电袋……大家又很久没干这种体力活)……据说当时公司一堆人在监控里看我们拆箱子,然后……然后当着他们面下雨了……
08年
公司自建机房,因为服务器都有UPS,但是空调没插在UPS上,园区电力不稳闪停电,机器没事。然后空调全部关机……服务器全部热死……
09年上(也许也是08年)
公司业务上来,买了4台AIX和8个盘柜,找电力公司拉了专用的电缆,十几个人吭哧吭拆的抬到公司自建小机房的机架上……然后……尼玛意想不到的来了……放的密度太高,而且机柜都在房子中间……然后……楼板压裂了……
09年下
费了牛劲按照当时架构师需求上齐活F5、cisco、AIX、websphere、oracle、db2、sqlserver集群,EMC……出点问题直接摇人让各供应商技术支持,一来十几号人坐一个会议室排查问题,几分钟问题解决几天,各种方案汇报给足了情绪价值。然后被发现自己最没价值,于是转战ec2、s3、route53、php、tomcat、mongodb、mysql,出问题了自己看,现实自己的情绪价值……现在(2024)看着自己的 Certified Solutions Architect 和废纸一样,不,纸都没发。难道一个电话摇十几个人不爽非得自己来?
10年
那时候刚上云,账号权限分配比较随意,拿老板的管理员账号直接开的aksk,然后aksk就不知道怎么大家都知道了,所有代码都用的这个,直到运维发现aksk直接api可以远程开关防火墙。然后创建了一个cto名字的iam admin账号,绕过安全部的白名单,登陆服务器把部门几个同事账号金币全部99999999,然后服务器里横着走了好几天,后来得知运营和安全部通宵了好几天……
11年
周六加班去吃饭路过机房,顺手开门巡检看一眼,看到财务服务器磁盘灯亮,管财务服务器的IT被裁,在主观能动性(手欠)的驱使下,登陆到服务器备份……结果,蓝屏死机……重启……磁盘没了……抽盘挂电脑,认不出来……赶紧往恢复数据的公司跑……好在恢复出来,但是一个周末免费加班,还不敢提加班单……
……(占位,等我回忆回忆,什么不按流程、传错字段、循环没停,删库跑路、还原备份还原到正式,老鼠咬断直连光缆,这种剧情大家看多了没意思,k8s master版本不对导致炸node集群,数据库密码放github的,这种过分技术的,群众不爱看,引不起大家娱乐的心情。
所以,不能娱乐大家并产生教育意义的事故不算事故)
16年
公司组织红蓝安全对抗,有现金奖励,破坏等级越高发的越多,被分到红方,和安测公司搞了很久没搞进去。刚好闲的在看007,最后一拍脑袋,既然黑不进去,那就特工进去……晚上找了同事工卡,刷进机房,没想下怎么破坏方法,顺手拉了一排服务器的电闸……最后记大过一次,记大功一次,功过相抵……然后公司根据这个锅,加装远程电磁锁,门禁,人脸,非法入侵声光报警,各个项目加装铁笼细分门禁权限……
17年
公司新上紧急大项目,没写网关服务,本来挂个云负载均衡几秒解决,但是手欠编译了个最新版本nginx,没做日志 压缩,几天把50G日志盘写满,然后后端服务挂了,后端检查了好久,怀疑是我nginx问题,我还拍胸脯肯定没问题,一检查尼玛……被骂半小时……
18年
公司推ipgxxxxxxd(防止被说是宣传),忘记把老板电脑例外,AD一推后没管,感觉有一阵子老板脾气暴躁,再后来维护时候看底层日志,子管理员 HR总监(老板娘)天天在看老板桌面,最后基于男人之间的理解,借故帮老板换了个电脑……
希望老板看不见这个帖子……
19年
某天裸奔的服务被DDOS打瘫了,想着我们都是好人,对方也买不了多少流量打我们,就图便宜上了个小公司按需付费的DDOS墙,业务是正常了,月末账单发来的时候我和老板都石化了。请对方老板喝酒唱k那啥三件套,谈到对面给了成本价……老板回来几个月没和我说过一句话。我还贱贱的问老板你是不是得罪谁了……
20年
公司节约成本搞虚拟化,买了一批SSD服务器,同时用了一批HDD盘的机器,规划把DB和大数据放SSD,前端和业务放HDD,结果创建虚拟盘时候,不知道咋鬼使神差地把SSD和磁盘标签标反了,于是核心DB和大数据挂HDD上了,然后……骂了几天业务和DBA优化数据……再然后被业务和DBA骂了好多天……
21年
小弟国庆值班,没事干下了个游戏玩,结果游戏带勒索病毒……公司10多T的共享NAS服务器文件全部被全部加密……这还不是最惨的,勒索病毒又去攻击别人,攻击到XX大使馆,大使馆报警,一查是我们IP,节后公安来了十几号人……
22年
封城时候在公司值班,在公司住2个月,胡子头发太长,公司人脸识别门禁系统不认识了,不给开门。无奈在园区保安帮忙撬公司门,结果不知道咋把门禁弄短路了,直接跳闸……然后核心路由器和门禁竟然在一个总闸……然后所有远程办公全部断网……再然后更扯淡的来了,核心路由器配置竟然没保存……
23年
公司来了个大厂p8,上来2板斧,降本增笑、开猿截流,一顿操作猛如虎,然后裁到大动脉。大家997了半个月把生产环境项目迁上云然后就急匆匆的把虚拟化的兄弟当天优化,交接就给了个密码……若干天后本地环境虚拟集群2台我下线扩容,然后……集群里其他2台物理机缓存卡在同一个晚上先后挂了,然后集群崩了……修复的时候,搞这个基础组件的程序猿也被他前几天觉得没啥用干掉了……
24年
新上一个项目,想白嫖cloudflare的缓存服务,顺手改了dnsNS,为cloudflareDNS,然后忘记关cloudflare代理,因为本地有dns缓存怎么测试都好的,忘记这事了,然后还是个周末……然后另一个部门付费投流,投流的也因为没测直接上了……然后周一被骂半小时……
几天前,苹果手机系统升级到最新,然后……google验证器不兼容、闪退、然后……主账户登陆不上阿里云,子账户没权限,干瞪眼……
网友辣评
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721