随着数字化浪潮的推进,出现了越来越多大型和超大型数据中心,通常这些数据中心承载了大量业务,其中不乏事关国计民生的应用(比如公有云服务商的数据中心),一旦出现故障,必须以闪电般的速度加以解决,最好让最终用户或客户根本就感受不到故障的发生。
而另一方面,现代应用程序需要能够快速响应客户需求,需要快速迭代,这对基础设施可靠性形成巨大压力,一旦出现性能问题甚至服务中断,现代应用程序造成的影响反而比传统应用更严重。
为了应对这些需求,SRE(Site Reliability Engineer)应运而生。相比于传统的运维,SRE面临的挑战更大,应对的局面更为复杂。此时,一个好用工具无疑能对SRE工程师带来很大帮助,特别是能帮助SRE判断问题优先级、迅速发现故障并帮助解决的工具。AIOps的价值正在于此。随着软件与基础设施资产的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。
SRE与AIOps
从事运维工作的人一定对SRE(Site Reliability Engineer)不会陌生,这个从国外大型互联网公司流行起来的词汇,这几年准备在国内流行开来。今天,在中国不仅一些大型公司如阿里设有SRE这个岗位,一些传统公司甚至开始模仿。
SRE最早在十多年前Google提出并应用,Google出版的《Site Reliability Engineering》一书在国内广为流传。尽管在国内有些人把SRE直接理解为运维或者系统管理,其实SRE与运维和系统管理虽有重合,但却有很大区别。根据Google对SRE的定位,Google SRE团队的职责包括容量规划、分布式系统监控、负载均衡、服务容错、on-call、故障应急、业务协同支持等。
从工作定位来看,SRE有运维的工作。比如,SRE要负责生产环境(网络、服务器、存储、数据库、中间件等)的稳定性保障工作,在日常on-call与故障应急工作中,运维能力必不可少。但SRE不止于运维。严格地说,SRE是一个技能综合性岗位,不仅需要运维能力,也需要软件工程能力、技术架构能力、编码能力、以及项目管理与团队协作能力。而在SRE做些这个工作时,AIOps是可以发挥重要作用的。
实际上,随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的SRE工程师手中重要的工程工具。它能够高效地整合各种系统指标、日志以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具随后会被整合至数据之内,借此充实关于现状的情报,甚至有望自动高效地完成事件响应。
AIOps的5大应用场景
实际工作中,AIOps可以在以下五种场景发挥重要作用:
这也是AIOps扩展工具包的核心应用,它能帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。
事件响应当中,从众多警报中找到关键信息一直是个大问题。太多警报往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。
突发事件往往非常混乱,而且形势也瞬息万变。过多信息会导致团队迷失方向,为此必须为运营人员提供背景信息,帮助他们找到正确的方向。AIOps能够自动对事件做出映射,同时建立起全面了解。除了理解以外,背景信息在事件解决方面同样有着重要作用。
AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等,共同为AIOps提供良好的训练数据,进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累,模型智能化程度将持续提升,最终提供更具针对性的关联、洞见与建议。
任何来源的事件数据,都会与您的现有事件管理工具及工作流集成在一处。您输入的数据越多,机器学习模型的训练度也就越高,产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据,通过背景信息丰富数据内容,并将结果通报至相关团队或响应人员手中,以供各个事件管理团队加以使用。以此为基础,各团队将不必把时间浪费在不同工具的往来切换当中。
对于尚未开始使用AIOps的组织而言,这项工作听起来似乎繁复无比。没错,AIOps确有一定门槛,但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。
首先,考虑最适合自身需求的用例。缩小思考范围,从小处入手开始学习,并在测试中不断成长。
其次,保证工作流程的透明化。人们天然会抵触变化,所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。
最后,为囊括AI及ML元素的新型IT运营体系做好准备。如今,采用AIOps技术支持运营体系的组织越来越多,相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。