E8software 发表于 2014-5-20 14:28:55

IT运维深刻教训

学习资料:IT运维管理社区专家讲堂直播300期视频回放




应接不暇的电话、办公区东奔西走、例行巡检、系统故障、维修、安装软件、解答疑问、远程协助处理、绩效考核…照例顶着星星下班,草草洗把脸,让自己进入梦乡。在梦里寻找如何才能彻底解决这些问题,提高团队工作成效,在梦里思考提高客户满意度,带领大家走出泥潭;在梦里对员工进行有效的考核,确保人员稳定;在梦里想着例会的时候怎样才能避免挨踢等…

  梦深时分,急促的铃声响起,电话接通,在电话的另一头,机房值班的成亮急切地近乎于吼叫:“老大,公司Web服务器遭到攻击,首页显示空白。”我没好气的说:“这样的问题也找我?应该在王飞之下的层面解决啊。”听着我有点不高兴的语气,成亮忙补充说:“王飞来了,他也解决不了。”

  问题棘手,我们总部的技术专家都不能搞定这个问题,究竟是什么问题呢?边思考,边利索的穿好衣服,赶到公司机房。让我欣慰的是,平素里嘻哈的各位技术精英们都来了,他们正在积极的进行会诊。

  王飞面带羞愧、甚至有点无助的过来汇报情况:“一位素来喜爱晚上工作的领导反映,公司的网站登录不了,邮件无法正常发送。”于是,值夜班的成亮赶紧检查,发现在首页,浏览器空白。

  首页无法登录,邮件无法正常发送,这对于已经完全习惯单点登陆的各位业务部门的要员们来说工作将无法正常开展,势必会给公司带来巨大损失。想到此,一丝不安从我的心头掠过…深吸一口气,让自己保持平静。

  王飞在继续汇报:“症状很简单,但就是找不到原因。我们已经考虑了各种可能情况,安全、系统和应用都做了详尽检查,似乎一切正常。”他一边说话,一边按下浏览器的刷新按钮,令我惊讶的是,首页正常显示。王飞的脸上一脸尴尬,不知该继续解释啥了。

  成亮赶紧着替王飞解围:“就是这样的,偶尔冒出一次正常,但绝大多数情况浏览器里什么都没有,就算有的时候首页显示正常,也不能进行正常的用户登录。”我直接走到电脑面前,刷新页面,看到了他们所描述的一片空白。

  蹊跷,的确有些蹊跷,怎么会如此呢,没有正常内容的展现,没有错误信息显现,字符呢?神秘消失了,留给我们的只有一片空白。我在脑子里快速的检索,以其能够找到些许灵感。此时,我仿佛找到一种熟悉的感觉,一种“手握高压水枪,冲锋陷阵”的感觉。

  逐一询问运维组的检查情况,细致了解了包括防火墙、入侵监测、操作系统、数据库的设置、Web服务器以及用用本身的运行情况,从询问中能够判断出来,王飞已经带领嘻哈精英们已经认真的进行了会诊,既然没有找到原因,那么很可能症结在他们的视线之外,有必要抬高天花板,跳出他们的视线去思考。时间在一分分的过去,天色越来月亮…

“启动应急措施,将备用的服务器准备好,将最后一次正常运行的备份环境导入到备份服务器中…”一连串指令发出后,我亲自测试起来。一次次空白的界面展示,仿佛在告诉我“你别瞎费功夫了…”,就在我准备放弃,完全接受应急方案的时候,正常的界面显示了,只是很快,在下一次的刷新,又重复出现非正常,他们的联系在哪里,问题在哪里。或许是累了,或许是乏了,我的手无力的停止了击打键盘,脑海定格成了一片空白。

  “头,应急处理已经好了,咱们先回去休息吧,等明天再来研究这个问题…”

  “好的”,下意识的回答,手胡乱的敲打着键盘,居然又一次看到了正常显示。真相的灵光闪现在我眼前,调出对应页面中检索数据库的相关脚本,然后直接登录数据库,调出相关数据表格进行检查,不出所料,脚本中比数据表了少一个数据字段,基于此,每次检索数据库时,Web服务器在既得不到内容又得不到错误提示的情况下,向浏览器返回了空白的结果。问题终于找到了,可是我的不安则愈加强烈。“OA厂商的技术人员什么时候来过?”

  “头,他们下班后来过,说是例行检查,看你在忙,就没有跟你打招呼,本打算明天向你汇报呢。咋了?”

  “如果我所料不错的话,他们进行了升级,但是因为某种原因,升级并没有成功,进行了简单的回滚恢复工作。将目前运行的脚本进行备份,然后将下班前的备份文件覆盖过来吧,应该就没有问题了。”

  王飞很快操作完了,系统正常运行了。大家一起舒了一口长气,议论纷纷“怎么会这样?怎么能这样?他们也太过分了,居然进行升级都不跟我们说一声,明天一定得好好的跟他们领导反应。”

  “先不要将板子打在他们身上,在一个组织中,信息安全无处不在,魔鬼就在日常的细节行为之中,安全保障跟组织中所有的人,跟组织中的制度,跟我们对制度的执行力都有关,不要一说起安全问题,就想到是黑客入侵、病毒发作这样简单的情况,此次事件充分说明了我们最大的漏洞在于我们的意识,在于我们的机制。我们是时候该静心去思考了,引入一套行之有效的规范制度,配套引进与之相关的工具,从根本上改变我们日常电话相应式,经验化的处理模式,让我们大家一起走出挨踢泥潭,成为快乐的IT工作者,让我们的部门能够在公司的日常经营运作中成为一个排头兵。话有点多了哈,呵呵,大家回去之后认真思考吧,周末例会讨论这个问题。”

  其实救火队长的问题是可以杜绝和预估的,采用E8.ITSM平台能够快速的建立完善的ITIL运维管理平台及严格执行变更管理制度,通过管理台,配合事件管理、问题管理、配置管理以及变更和发布管理,可以把IT部门同业务融合成一个IT运行整体,从而确保IT系统发挥最大效率。在此次事件中,如果严格执行变更管理当OA厂商来进行升级,必须通过变更管理领导的审核和批准,否则是无法进行相应操作的,也自然不会出现故事出现的脚本比数据表少数据字段的情况,这对运营维护好IT系统以及提供完善的IT服务有着重要的意义。据业界统计变更管理占据整个运维管理一半以上的席位。。。[转载文章]



页: [1]
查看完整版本: IT运维深刻教训