转自:ITPUB
今天在知乎上看到这样一个问题:"自己亲手引发运维事故是一种什么样的体验?"
问题地址:https://www.zhihu.com/question/43860483

回答

整理了几个不错的回答,分享一下。

罗健的回答

这是我刚入行时引发的一起事故。
某互联网公司,有一个实时计费系统。有一天我闲着没事干,到前台泡妞。
前台小姑娘和我说,计费系统的时间不准,慢了刚好1年。我问他之前是不是也这样,她说是的,一直都比实际慢1年。
我估计是系统上线的时候,实施工程师把年度时间改错了。但是用了这么长时间都没有问题,说明并不影响计费系统的正常运行。
但是前台小姑娘可是个大美女,既然她提出来了,我想,怎么也得露两手,谁叫我是“专业”的运维工程师呢。
我不经思考就直接对她说:“这简单,把linux系统时间改一下就可以了。”
然后,在计费系统里熟练地输入了更正时间的代码,毫不犹豫地按下了回车。
前台小姑娘一脸微笑,但是突然,她脸色凝重了起来,指着计费屏问我:“怎么在线用户都不见了?”
我一看,也觉得奇怪,正常在线用户都有1000多人呢,现在怎么只有几十人了?
我纳闷了好长一会,然后接到了客服部的电话,客服部急迫地问我:“是不是有什么故障?投诉台有上百个电话同时打进来,说是断网了!”
我顿时脸色大变,眼睛瞪得老大了,意识到出大事了!
监控室几乎也是同一时间,也打电话过来了,问我是不是出了什么故障了,他们监控到有大范围用户断线的异常告警。
我吓得腿都软了,站都站不稳,脑子一片空白,冷汗从额头处瞬间冒了出来。
正当我不知所措的时候,已经惊动到了直属领导涛哥,因为后台监控系统一旦有告警,告警短信就会第一时间自动发到相关维护人员的手机上。
涛哥打电话问我怎么回事,我实话实说了,是边哭边说的。
涛哥也是很有领导魅力,当下叫我先保住现场,稳住用户,他和运维组的工程师们马上赶过来。
10多分钟后,涛哥和运维组的工程师及DBA火速抵达了现场。
故障的原因是时间变快了1年导致的,所以在1年内过期的账号全部被踢下线了,而且无法重新登录。
当时DBA写了个语句查询之后发现,这些账号多达3千多个。将时间再改回去也行不通,系统时间就会颠倒错乱,数据就全乱套了,后果更严重。
涛哥果断做了决定,直接修改数据库,将这3千多个账号的到期时间,全部改到年底。
DBA赶紧写了相关语句,同时对相关的数据表进行了备份。
语句准备执行的时候,DBA手都抖了,涉及到的账号不是一两个,而是几千个,影响范围太大了,万一有啥差错,就吃不了兜着走。
语句执行的时间很长,我们的心都在颤抖,好在顺利执行了。
之后,我们赶紧抽查一部分账号,发现这些账号已经能正常登录了,然后赶紧通知客服部的工作人员,叫用户重新登录,借口是网络波动导致的。
从故障发生到恢复,用了40多分钟。但是,计费金额和财务账上的已经对不上号了,后续财务部算了一下,出现了40多万元的空缺。
正常情况下,故障时间超过10分钟就会被定性为事故,总部将这次事故定性为1级:严重事故,人为。
这件事结束后,我被调离了工作岗位,公司对我进行了长达3个月的重新考核,职称从T2降级到了T3,年终奖和绩效全没了... ...
我的直属领导涛哥,因管理不善,被记大过处分... ...

匿名用户的回答

算是间接吧(反正我是不会认的……)
给客户做的操作员培训手册和PPT是我写的,直接用了实际生产系统的地址;
然后队友拿着这俩文件去给客户的新员工做培训,直接进了客户的生产环境一顿演示……
老板后来跟我说,如果当时不是队友在现场,我在另一个地方出差,他在公司两个都逮不着,他能用键盘把我们俩一起拍成伯邑考……

qwer9876的回答

有⼀次看⻅个服务器,⾥⾯有个定时apt update/upgrade脚本,但apt误写成了atp,所以这脚本从未被成功执⾏。
我⾮常“好⼼”的帮他更正,并⼿动执⾏了⼀次,然后可能因为太久没更新,更新崩了。
项⽬组的⼈下来查看,我急中⽣智,若⽆其事的指着卡住了的apt说,“我就说闲着没事乱更新,看看,这不更新坏了。” 
那个⼤哥出了⼀头汗,盯着apt左看右看,说“不应该啊,这⼀年每天更新都正常啊,怎么今天坏了?” 
趁他疑惑,我赶紧跑了。

爱网上冲浪的回答

曾经给公司的一个客户维护数据库,要删除一个掉测试用户。
输入完 delete from users ,顺手快捷键执行了。。。
最坑爹的是数据库是游戏组的老哥搭建的,用的phpstudy搞的,没有开启binlog。
数据库的几十万用户,客户花了几百万推广费。那一瞬间,就感觉背后汗水流下来了。
结果因为有外键,没删掉!!真是吓死爹了。。。

乔木leon的回答

学网络的小伙伴,老师都应该告诫过你们没事别打 debug all 吧。
嗯,我打了,导致一台核心交换机歇了,全公司断网。
当时刚毕业头铁,全组的前辈们对我只有牛逼两个字的评价。
最后把线拔了换了冷备的交换机,等 debug 完了又切回去的。

小小的的回答

这个不说太详细,毕竟不能匿名了,
反正三⼤运营商之⼀,上4G那年,后台需要每个4G基站都要输⼊单板编码。
⽐较⻓有18位,需要⼿动填写,还要填基站单板IP,有⼤概60多个需要填写。
太麻烦了,然后呢我看到输⼊界⾯上⾯有导⼊导出(我3G⽹管配置数据⽤的都是EXCEL导⼊),然后我骚操作来了,
打开DHCP 管理,导出全省的DHCP,然后看⼀下填写格式,然后新建了⼀个excel模板表头复制进去。
把我需要填写的编码填进去,然后导⼊,导⼊前我也不知道怎么想的,就⻤使神差的备份了下全省的DHCP。 
导⼊后我才发现,全省将近上千个4G基站的DHCP没了,就剩我导⼊的了,⽹管4G⼤量出现掉站告警。
我瞬间⾎压就上来了,脑⼦真就嗡的⼀下,全身汗⽑直⽴。
然后我反应过来,我瞬间⼜给导⼊了进去,⼤概10分钟左右吧,告警就慢慢恢复了。
告警恢复过程中我真的度秒如年啊,当时要是谁给我打电话我能吓死。
没被发现下因为当时4G才开始,是试⽤期,没多少⽤户,
基站夜⾥开通本来就会有告警,运营商不太关注这个,⼜是凌晨新的⽹管经常系统升级,所以我躲过⼀劫。 
给不太懂的⼈解释下这个事情有多⼤,就这么说吧在那10分多钟内全省⽤户⼿机不能4G上⽹。
还好当时没那么多4g⽤户,还是凌晨,以当时的4G发展,这事但凡出晚⼏个⽉,⼤家都可以在新闻上看到我了。 
我当时填写我得数据的时候我想了下我第⼀次弄别导⼊错了,留个备份吧,我要是直接原表改,那就完蛋了。
全省4G全部掉完,得涉及⼏个⼩时,我就这⼀个念头差点闻名全国啊。 
我还有⼀次删除数据差点把全市的3G基站数据删除,他提示我确定要删除吗?
我瞬间精神了,我那个否字,我整整确认了有30多秒,他连个可以点掉的X都没!! 

匿名用户的回答

生产环境的支付全靠两个数据库,两个数据库来源网络是全开放的。
我没带脑子,给加了个白名单,于是全国范围线上线下所有的支付全部失败。
老板大晚上打电话过来骂了我十几分钟,说赔了几十万。
END
官方站点:www.linuxprobe.com
Linux命令大全:www.linuxcool.com
刘遄老师QQ:5604215
Linux技术交流群:2636170
(新群,火热加群中……)
想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!
继续阅读
阅读原文