AIOps落地关键点指南
陈峻 51CTO

随着系统效率和复杂程度的日益提高,我们用于承载服务的IT环境也变得异常复杂。许多企业在向微服务和容器化的迈进的过程中,给已有的应用进一步增加了大量的服务组件。那么如何管理和协调好各个组件之间的功能与关系,显然是我们需要面对和处理的巨大挑战。

对于大多数企业而言,他们的IT运营(IT Ops)团队往往只能疲于应付上述复杂局面,且很难获取到更多的实用信息与管理资源。而这恰恰是人工智能化IT运营(AIOps)一显身手的地方。通过由大数据、数据分析和机器学习等技术所提供高水准的定制服务,AIOps能够为当下流行的基础架构提供的全面、且深入的宝贵支持。

下面我们来一起了解一下,那些涉及到AIOps落地实践方面的关键知识点。

了解AIOps

如今,虽说已经出现了大量的自动化工具,但是IT Ops团队却无法收益于效率的提升。由于这些工具尚无法基于数据进行自动化的决策,因此人工运维的工作量仍旧十分庞大。

而AIOps提供了一种将数据分析集成到IT Ops中的更为精细的方法。它能够根据组织的目标,来更好地支持可扩展性的工作流。

AIOps平台的各种技术组件

image.png

AIOps的各种用例

异常检测 – 作为一种最基本的检测方法,只有在检测到数据中的异常之时,才会触发某个补救措施。

因果分析 - 为了快速有效地解决问题,AIOps能够按需进行根本原因的分析。

预测 — AIOps可以利用所支持的工具对未来进行自动化的预测。例如,它可以了解用户流量的变更方式与时间,并籍此做出反应,进而解决问题。

警报管理 – 它可以自动实施智能化的补救、以及闭环补救,而无需任何人工干预。

在AIOps和DevOps之间制造平衡

众所周知,DevOps已经给许多企业带来了文化上的转变,而AIOps也有着异曲同工之妙。通过帮助企业从各种相互连接的、却又分散的数据中发现潜在的洞见,AIOps让企业的决策自动化变得更敏捷且准确。

对于企业而言,摆脱长期以来的信息孤岛状态是非常重要的,他们希望由自己系统所生成的数据能够具有全局化的可观察性(observability),而不仅限于单个部门或业务。

另外,通过AIOps,IT Ops管理人员的传统职能也会逐渐转化为系统现场可靠性工程师的(Site Reliability Engineer)这一角色。籍此,他们能够利用手头上收集到的信息、并以更加有效的方式解决碰到的各种问题。

尽管AIOps和DevOps的落地目标都是为了改进组织的服务、并提高总体生产力,但是AIOps还能够通过减少妨碍生产力的干扰因素,来提高DevOps的各项实践效率。例如:AIOps就能有效地减少来自各种平台的误报和通知的数量,由此DevOps工程师们便可以更加轻松地将有限的精力,集中到真正的故障问题之上。可以肯定地说,AIOps能够对DevOps工程师、及其企业目标起到事半功倍的效果。

AIOps与时间管理

无论企业开发团队的规模是大还是小,他们总是会遇到“时间紧、任务急”之类的常见问题。幸运的是,无论是在创建机器学习模型、还是在处理数据方面,AIOps都能够通过灵活地获取数据,以及处理大量新的信息,来帮助您在有限的时间内完成海量的任务。

过去,企业虽然深知高质量数据的重要性,但是面对其复杂性时,往往无法通过常规的数据分析,来进行解读、验证,甚至为自己所用。正如一份毕马威会计师事务所的调查所显示的那样:由于与自己的想法或经验并不相符,67%的CEO会不得不选择性地忽略那些计算机驱动的模型、或由数据分析所提供的洞见与判断。

如今,AIOps则能够利用那些训练有素的机器学习算法,“实时”地捕获并维护那些高质量的数据,进而采用大量既有的用例,来实现快速准确的处理。例如:对于那些能够检测服务异常状态的用例而言,快速识别错误代码与信息往往是至关重要的。特别是在防范系统安全漏洞的场景中,AIOps能够让自动化且精准的方式为运营团队,以最快的方式找到解决问题各种备选方案。

AIOps的日益普及

当然,拥有数据是一回事,而真正能够有效地使用数据则是另一回事了。在实际应用中,企业往往需要利用机器学习的相关技术,来自动化地扩展目标应用及其对应的平台。

根据MarketsandMarkets(https://www.marketsandmarkets.com/PressReleases/aiops-platform.asp)的预测:明年,企业采用AIOps平台的增长率将达到34%,而目前的转化率需求也正在持续增长。在不增加资源负担的情况下,AIOps让企业变得更加灵活,他们的响应能力也会更强。可以说,AIOps即将成为高度数字化时代的必备工具。

AIOps的落地

随着越来越多的企业愿意在运营中采用AIOps模式,他们所要面对的问题是:如何以与业务需求相适应的方式来接受它。以下是我们为您准备的一些有关AIOps落地关键点指南:

  • l实施团队通过了解人工智能和机器学习的基础知识,以便更好地运用相关技术。

  • 通过调查,发现运营人员日常工作中最耗时的任务。尤其是那些需要有效地转化为自动化的重复性任务,往往最需要通过AIOps的干预来减轻作业的负担。

  • 避免一次性涉及太多的方面。我们可以从小处做起,从高优先级的任务开始。一旦获得了良好的反馈,则可以通过及时的评估,将该技术用例推行其他领域和任务的解决任务之中。

  • 针对不同的数据采用AIOps。毫无疑问,此举可能需要比您想象更长的时间才能实现,不过您将会收获更多有关当前系统的洞悉。此外,通过成功地定义各项参数,并及时地评估各项指标,您需要确保AIOps的各项工作能够与组织的目标完美契合。

从应用成熟度来看

对于大多数组织,特别是IT部门的领导者而言,他们更热衷于通过对于复杂事件与任务的自动化执行,来减少各类警报的数量,降低服务中断和停机所带来的成本。而在AIOps的采用和落地时,不同组织的目标可能会有所不同。不过,他们通常会希望获得目标系统更全面的可见性,以及对于生产环境更有效的运营处理能力。

下图展示的是一个五步走的成熟度模型。该模型能够帮助组织确定自身在监视和自动化过程中所处的位置。

image.png

其实,AIOps主要适用于那些有着长期目标、并将其运用到以微服务为驱动应用程序的领域。也就是说,AIOps旨在确保组织内部信息的流动,以满足整体架构和业务目标,而不仅仅是改善当前的运营流程。运营团队需要从当前应用的角度出发,协同架构团队、甚至是云端支持团队,重新考虑如何去感知整个堆栈。而且,这对于那些使用微服务所构建的应用程序尤为重要。同时,企业需要通过重新设计各种运营功能,来深入了解应用层的架构特点,进而让恰当的数据自动流向应用开发人员,并提供各种必要的见解。

总结

如今,已有不少的企业尝鲜式地采用了AIOps的运营模式,但是他们也碰到了不少实际落地方面的问题。希望上述建议能够帮助您更平滑地实现向AIOps的转化,并充分释放AIOps的潜能。


CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢