如何提升数据中心运维团队的成就感?

来源:CIO之家 作者:网友

数据中心的运维团队是整个数据中心最为辛苦的团队,但也经常被人忽视。从传统视角去看运维工作,运维的确承担了很多的职能,如服务器工程师、网络工程师、桌面工程师、系统管理员、数据库管理员、安全工程师等。数据中心运维团队要覆盖数据中心所有门类的技术,掌握数据中心各个运行环节的机制。

在以前包括现在,很多运维团队就是将自己放在了一个提供IT资源和支持的定位上,不仅外人这样看,运维团队的人自己都这样看,这样的环境下,让很多运维团队的人成就感不强,终日和这些机器打交道,运维的工作也被贴上了“IT保姆”、“救火队员”、“苦逼”等标签,这也造成了数据中心运维这类技术人员的缺乏,没有人愿意去做这样一份没有成就感的工作。难道我们的运维真的只能如此?数据中心这样高大上的行业,怎么做数据中心的运维工作就变得如此低端了呢?   

提升运维工作的成就感,主要是要让运维人员感到工作很有价值。同样做一份工作,充满期待的去做和按部就班地去做的效果完全是不同的。前者可能在原有工作的基础上找到一些现有数据中心不足的地方,主动去优化,而后者则是能少做就少做,不出问题即可。经常有人说要创造性地去工作,指的就是前者。在腾讯的数据中心运维工作中,把运维价值分成了几个方向:高质量,低成本,效率快,控制风险。运维工作的目标就是这四个方向,通过工作向这四个方向努力,工作的成绩也体现到这四个方向上。

具体高质量指的对数据中心访问的体验感。许多研究都表明,用户最满意的打开网页时间在2秒以下,用户能够忍受的最长等待时间的中位数,在6~8秒之间。这就是说,8秒是一个临界值,如果你的网站打开速度在8秒以上,那么很可能,大部分访问者最终都会离你而去,如果等待12秒以后,网页还没有载入,那么99%以上用户会关闭这个网页,不再等待。衡量数据中心运维工作是否具有高质量,就是看数据中心能否提供持续的很好的用户访问体验感,用户满意度是最重要的一个衡量标准。当然,我们知道这种体验感的提升是多方面的,要增加应用软件的稳定性,要扩大数据中心访问带宽等等,涉及很多的细节问题,作为运维人员很多方面还无法自己控制,但是工作努力的方向就是高质量,通过工作保持数据中心长时间稳定运行,通过工作利用现有资源进一步优化。

成本也是运维工作要考虑的重要因素。运维部门是数据中心支出较大的部分,带宽、服务器、人力等都是非常昂贵的资源,成本的控制精细化考验了运维团队的技术能力和管理能力。数据中心运维最经常做的工作就是新增应用业务,那么要不要再增加设备,是要仔细评估的,增加设备后运维的人力是否足够,这些都需要新增资金投入,一个数据中心运维总监如果总是向企业要资金,哪个企业都不会太喜欢,运维工作就是利用现有资源最大化提升运转效率,所以对于数据中心优化工作每时每刻都在上演。运维人员要在工作中善于发现一些节约成本的地方,时间长了小的积累就很可观。

再说工作效率,强调效率就是运维工作要有很强的时间意识。我们知道最近一次支付宝断网花了2个小时才修复,而携程网故障恢复居然用了12个小时,这说明处理故障的应急处理机制并不好,效率很低。最好的应急故障方式应该是在用户无感知的情况下,完成业务的切换,将故障自动隔离。效率不仅体现在对突发故障的恢复处理上,还有在新建机房、扩容、搬迁等数据中心工作中,也有效率的体现。高速发展时期的互联网数据中心往往可能一两个星期就会新建一个机房,速度很快,这就要求运维人员要有很高的工作效率,这种交付能力是高效率的最好体现。安全是数据中心最重要一环,数据中心需要建立一个全面的安全体系,从系统级、数据级别、应用级别等各个纬度去对待安全问题,这个话题贯穿在整个数据中心的运维工作中。数据中心要有自己的运维安全团队,制定详细的访问控制、数据加密、数据备份、隔离访问、软硬件防火墙部署等安全措施。携程网故障是由于员工的误操作,那么能否从安全角度制定一些措施去避免,都是运维工作要考虑的。

现在的数据中心遭受着各种各样的攻击,安全问题倍受关注,数据中心需要不断进行优化安全的部署,将风险消除在摇篮之中。在日常的运维工作中,应该注重细节,发现一些系统不足的漏洞,然后及时去弥补,这些不足如果运维人员自己没有及时发现,就有可能让外人钻了空子,所以对于数据中心安全,应该警钟长鸣,运维工作应该确保数据中心不会遭受任何的损失。

经过以上的介绍,是不是感觉到运维工作很有成就感?要做到这四方面是需要有大量的细化的工作,要搭建平台,要建规范,做标准,还要学会用数据驱动运维、研发、测试,你会忙得不亦乐乎,这些运维工作最直接的结果就是这四个方面的体现,只有这四方面有进步了你的工作才能被领导所赏识。其实不仅在运维工作上,很多其它工作也并不是那么有趣,但是如果这个工作能让人看到工作的巨大价值,工作起来就不会那么枯燥了,这就是要创造性地工作,只有创造性地去工作,才能提升工作的成就感。


相关文档推荐

SRE Copilot大语言模型智能运维框架.PDF

1741936996 王宁 5.04MB 24页 积分6

2024智算运维发展研究报告.PDF

1740033222  1.71MB 30页 积分5

数据中心产业图谱研究报告.PDF

1740031966  1.7MB 37页 积分10

腾讯云流式湖仓统一存储实践.PDF

1737423643 李哲 1.95MB 0页 积分4

AIGC数据存储技术研究报告.PDF

1737359276  1.22MB 29页 积分5

AI芯片的基础关键参数.PDF

1736925231  2.25MB 17页 积分4

智算平台运维运营技术研究报告.PDF

1736479643  3.95MB 66页 积分5

信息安全技术网络数据处理安全规范.PDF

1733906136  0.31MB 0页 积分5

云边端协同环境下的数据存储与管理.PDF

1733702339 王宏志 6.32MB 88页 积分8

面向 AI 的新型数据中心智算网络体系.PDF

1733484566 翟恩南 1.47MB 22页 积分5

相关文章推荐

运维指标体系在银行业务的应用实践

CIO之家的朋友 CIO之家的朋友 

面向业务应用交易的IT运维监控思路

CIO之家的朋友们 张晓丹 

数据中心灾难恢复规划模板与指南

CIO之家的朋友们 CIO之家的朋友 

运维85条军规

CIO之家的朋友们 ANZHIHE 

AIOps之前,运维层面能做什么

嘉为蓝鲸? 赵海兵