事情还没解决,把龙运扣在办公室里骂死,被淋死的服务器们也不会死而复生。
下午四点,龙运还没过来请罪,显然是事情还没解决。
设计数据中心机房的建筑设计院已经过来了,他们说是来说明问题的,其实是来甩锅。
机房升温的原因:冷机系统故障。
故障原因:缺水。
由于水路循环受到影响,导致整个机房里所有的主冷机服务异常,连带着备用的冷机也一起完蛋。
然后,补水了,结果由于冷却系统的群控逻辑,无法单机独立启动,必须手动修改配置。
等工程师改完了,才重新启动。
查原因用了三小时三十四分钟。
补水用了两小时五十七分钟。
人工修改冷机的群控逻辑用了三小时三十二分钟。
所以,早上五点发生的问题,直到刚刚才解决。
中途还因为傻逼的自来水消防喷淋装置,彻底毁了一个房间里的服务器。
这家建筑设计院就是之前安夏成功推销了软件的那家接了援非业务的,院长朱洪涛给钱挺痛快。所以安夏在做数据中心的时候,也想到了他们。
这次带队过来的人是总工杜力,在来之前他们内部已经撕过一轮了。
冷机故障,正常情况下第一个要找的是暖通。
暖通工程师说:“关我什么事?是我让冷机没水的吗?是弱电的错!没水了群控都查不出来。”
弱电工程师说:“关我什么事!我的程序没错!是给排水的错……”
给排水工程师说:“啊对!是,我,我有罪!但是负责机房监管的人就一点责任都没有吗?”
于是,杜力亲自带着给排水工程师过来谢罪。
如果有可能的话,最好能把锅甩回给紫金科技,建筑行业一出生产责任事故,不是赔钱就是坐牢。
他们也不想的。
机房断气的责任事故有两件事要往下追:
第一,冷机的水到底是怎么没的。
第二,谁出的主意,在机房里用自来水喷淋做为消防手段的。
第一件事的责任方无论如何都有给排水工程师的锅,甩是甩不掉了,他最多拉着机房监管人员共沉沦。
杜力向安夏再三道歉,表示会马上亲自到现场查明事故原因。
下午五点,龙运来了。
他接到消息的时间是早上五点十分,早饭午饭都没吃,连轴转到现在,解决了机房的问题之后,又急匆匆地赶来向安夏汇报。
什么时候机房出现了什么事,什么时候机房全面恢复。
目前造成了什么损失。
损失只报了那一房间的硬件,安夏盯着他:“你是不是漏掉了什么?”
“什么?”龙运没反应过来,冷机不进水的故障不是由建筑设计院认领吗?
“对客户的影响。”安夏冷着脸说:“停机多长时间,多少个客户不能正常使用功能,这些客户都是什么行业的,显性的故障是多少,隐性的故障是多少?你没想过?”
龙运完全没往那里想:“应该……没有吧,那个时间还早,我们又很快把数据转移到异地备份服务器了……”
“吃了么在出现故障之前已经有一千多单预约。如果不是出现故障,应该还会有几单,也许就有想预约午餐的客户打开网页之后,发现无法登陆,然后放弃的,这算不算损失。”
龙运不敢吭声了,紫金内部的各个团队是独立运营,吃了么的老大又是安夏之前助理,不是可以随便打发的小虾米,他们的投诉当然也是投诉。
安夏又问:“数据中心有应急手册吗?有防灾演习吗?”
“有应急手册。”龙运赶紧说,并说就在公司内网上就有电子版,安夏一目十行的扫完,眉头紧锁。
“这边不是有关于数据中心出现问题之后,应该第一时间启动容灾逃逸吗?为什么出现问题之后半小时都没有启动?他们不知道就算了 ,你也不知道?你还想不想干了?!”
面对暴怒的安夏,龙运沉默,安夏并没打算因此放过他。
总经理办公室里的空气像粘稠的胶水,在如此的重压下,龙运感到自己无法呼吸,他想逃走,但是一步也走不动。
安夏的眼神像锋利的刀,他实在不知道应该怎么办。
现在,他十分后悔,早知道,不听那个人的建议就好了。
如果不是因为轻信了别人,选择了更便宜。但需要经过中间件跳转的管控系统,怎么会在发现故障的时候吵转不过去。
如果不是一个资深运维生死时速修改bug,安夏命令他做容灾逃逸的时候,他也转不过去……
当时转成功的时候,他还松了一口气,以为安夏不会再追问这件事了,没想到,她还记着这事。
这要怎么向她解释,说自己一分钱没收,只是因为朋友关系,才听了别人的建议?