AIOps，SRE工程师手中的利器原创

AIOps开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据，判断系统运行状态并保证其处于最佳状态。

随着数字化浪潮的推进，出现了越来越多大型和超大型数据中心，通常这些数据中心承载了大量业务，其中不乏事关国计民生的应用（比如公有云服务商的数据中心），一旦出现故障，必须以闪电般的速度加以解决，最好让最终用户或客户根本就感受不到故障的发生。

而另一方面，现代应用程序需要能够快速响应客户需求，需要快速迭代，这对基础设施可靠性形成巨大压力，一旦出现性能问题甚至服务中断，现代应用程序造成的影响反而比传统应用更严重。

为了应对这些需求，SRE（Site Reliability Engineer)应运而生。相比于传统的运维，SRE面临的挑战更大，应对的局面更为复杂。此时，一个好用工具无疑能对SRE工程师带来很大帮助，特别是能帮助SRE判断问题优先级、迅速发现故障并帮助解决的工具。AIOps的价值正在于此。随着软件与基础设施资产的迅猛拓展，AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持，保证在问题扩大化、复杂化之前及时将其解决。

SRE与AIOps

从事运维工作的人一定对SRE(Site Reliability Engineer)不会陌生，这个从国外大型互联网公司流行起来的词汇，这几年准备在国内流行开来。今天，在中国不仅一些大型公司如阿里设有SRE这个岗位，一些传统公司甚至开始模仿。

SRE最早在十多年前Google提出并应用，Google出版的《Site Reliability Engineering》一书在国内广为流传。尽管在国内有些人把SRE直接理解为运维或者系统管理，其实SRE与运维和系统管理虽有重合，但却有很大区别。根据Google对SRE的定位，Google SRE团队的职责包括容量规划、分布式系统监控、负载均衡、服务容错、on-call、故障应急、业务协同支持等。

从工作定位来看，SRE有运维的工作。比如，SRE要负责生产环境（网络、服务器、存储、数据库、中间件等）的稳定性保障工作，在日常on-call与故障应急工作中，运维能力必不可少。但SRE不止于运维。严格地说，SRE是一个技能综合性岗位，不仅需要运维能力，也需要软件工程能力、技术架构能力、编码能力、以及项目管理与团队协作能力。而在SRE做些这个工作时，AIOps是可以发挥重要作用的。

实际上，随着应用程序与基础设施的蓬勃发展，AIOps也开始成为一种极为重要的SRE工程师手中重要的工程工具。它能够高效地整合各种系统指标、日志以及来自第三方工具的数据，判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题，算法与机器学习工具随后会被整合至数据之内，借此充实关于现状的情报，甚至有望自动高效地完成事件响应。

AIOps的5大应用场景

实际工作中，AIOps可以在以下五种场景发挥重要作用：

1. 检测事件

这也是AIOps扩展工具包的核心应用，它能帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象，而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法，AIOps能够及时发现预警信号，帮助运营团队在客户体验受到影响之前就及时介入。

2. 减少及消除干扰

事件响应当中，从众多警报中找到关键信息一直是个大问题。太多警报往往令员工的神经变得麻木，难以发现真正紧急的状况。理想情况下，我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级，借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。

3. 整合相关信息

突发事件往往非常混乱，而且形势也瞬息万变。过多信息会导致团队迷失方向，为此必须为运营人员提供背景信息，帮助他们找到正确的方向。AIOps能够自动对事件做出映射，同时建立起全面了解。除了理解以外，背景信息在事件解决方面同样有着重要作用。

4. 提升智能化水平

AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等，共同为AIOps提供良好的训练数据，进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累，模型智能化程度将持续提升，最终提供更具针对性的关联、洞见与建议。

5. 整合数据、统一团队

任何来源的事件数据，都会与您的现有事件管理工具及工作流集成在一处。您输入的数据越多，机器学习模型的训练度也就越高，产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据，通过背景信息丰富数据内容，并将结果通报至相关团队或响应人员手中，以供各个事件管理团队加以使用。以此为基础，各团队将不必把时间浪费在不同工具的往来切换当中。

对于尚未开始使用AIOps的组织而言，这项工作听起来似乎繁复无比。没错，AIOps确有一定门槛，但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。

首先，考虑最适合自身需求的用例。缩小思考范围，从小处入手开始学习，并在测试中不断成长。

其次，保证工作流程的透明化。人们天然会抵触变化，所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。

最后，为囊括AI及ML元素的新型IT运营体系做好准备。如今，采用AIOps技术支持运营体系的组织越来越多，相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。

来源：至顶网软件与服务频道

AIOps

0赞

好文章，需要你的鼓励

AIOps，SRE工程师手中的利器 原创

1. 检测事件

2. 减少及消除干扰

3. 整合相关信息

4. 提升智能化水平

5. 整合数据、统一团队

来源：至顶网软件与服务频道

2021

03/08

10:36

分享

点赞

OpenAI在版权诉讼中疑因隐瞒证据遭遇重大危机

外科医生远程操控人形机器人，完成全球首例活猪手术

OpenAI发布ChatGPT Work：AI助手可连续工作数小时

欧盟向Meta施压：关闭自动播放和无限滚动，否则面临巨额罚款

世界模型的潜力与局限：它真的能模拟一切吗？

苹果起诉OpenAI：前员工利用系统漏洞窃取商业机密

如何利用开源AI智能体实现工作流程自动化

Cloudzy 云服务评测：VPS 性能与体验全面解析

这款PCIe插卡内置38核至强处理器与64GB内存，堪称完整服务器

是否该为企业招募数字员工？AI 智能体团队搭建全指南

AI赋能自主机器人：从工厂走向家庭的未来图景

数据中心能源需求威胁特朗普"美国制造"计划

戴尔收购人工智能运营平台初创公司Moogsoft

数据中心反脆弱：用AIOps应对运维中的高度不确定

克服IT复杂性 SolarWinds Observability让一切尽在掌控中

从传统云走向主动云 微软亚洲研究院让AIOps加速落地

信通院首批AIOps系统和工具评估，博睿数据获评异常检测模块“全面级”

兴业证券「现身说法」：谈云原生时代技术架构和运维的「解题技巧」

BMC收购软件公司StreamWeaver以强化AIOps能力

云智慧发布智能运维分级成熟度模型，看看你的企业属于哪一级？

拥抱开源，云智慧发布AIOps社区

博睿数据作为AIOps代表厂商入选《2021年中国ICT技术成熟度曲线报告》

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

AIOps，SRE工程师手中的利器原创

从传统云走向主动云微软亚洲研究院让AIOps加速落地