IT运维管理如何摆脱“不怕坏,就怕慢”的魔咒
记者 CIOZJ

    IT运维工程师之间一直流传着“不怕坏,就怕慢”的魔咒。如果是网络发生信息不通、网页不能浏览等连通性故障,运维排错的任务并不困难。可当网络连通性并无问题,业务系统的响应和访问速度却在一步一步变慢,IT运维人员就很难处理这种“软故障”。


    对此,管理员应最大限度的保障数据中心的运行效率,不能让“软故障”成为阻碍用户应用的屏障。管理者应站在业务应用的全局角度上指导运维细节,建立业务系统与基础网络的映射关系,使用更先进的IT运维管理分析方法和手段,尽量缩短排除故障的时间,进而提升服务的质量和用户的体验效果。


    案例分析:被“怪病”缠身的服务器


    小刘,是一家大型企业的运维工程师,但他最近遇到了一种“网络怪病”。业务部门反映,已经上线4年多的CRM(客户关系管理)系统常常出现访问异常缓慢,用户终端需要反复刷新页面,有时还会出现彻底无法访问(访问超时)的问题。另外,还有些业务人员反映,在更新用户联系信息后,已经被更改的用户资料并没有得到更新。而且,这些问题已经被反映到集团老板那里,IT运维部门的领导带着一脸沮丧,要求他迅速查出原因,因为CRM系统的“怪病”严重影响了公司业务处理的效率。


    小刘采用的多种方法开始排查故障的源头,例如:业务部门PC终端故障、检查服务器端的性能、找程序开发人员挖BUG、检查数据库、检查交换机、给服务器杀毒、翻阅之前的所有日志、架上流量监控软件……花费了大量的时间,最终也只是找到故障根源可能存在的方向。因为在拔掉交换机上链接服务器的线缆后,FCS帧就会瞬间减少。这应该是网卡损坏(包括协议、驱动、硬件)故障或者连接服务器的网线(包括RJ45头)部分出现了问题,但排除问题所消耗的时间实在让人无法忍受。


    虽然小刘已经知道了“方向”,但这种拖延的后果,无疑还是把矛头指向了IT运维部门的服务质量。业务系统反应越来越慢的现象,对于系统维护部门的压力将直接集中在故障恢复的时效性上。因此,IT运维管理应该利用主动发现的智能机制,以业务为核心建立一体化的管理体系,才能避免这种“软故障”在数据中心的为非作歹。


    如今,IT运维一体化、智能化管理已是大家普遍关注的热门话题,那些传统分散式、粗粒度、低效率的IT运维管理模式已经难以满足大规模、多层级、全覆盖的运维管理需求。所以,通过建立与IT架构、管理模式等相适应的业务服务模型,不但能够清晰地描述业务与IT之间的关联,更能让主动运维的IT人不惧怕这种“软故障”,进而帮助IT管理人员和业务部门形成合力。

 

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢