随着数字化浪潮的推进,出现了越来越多大型和超大型数据中心,通常这些数据中心承载了大量业务,其中不乏事关国计民生的应用(比如公有云服务商的数据中心),一旦出现故障,必须以闪电般的速度加以解决,最好让最终用户或客户根本就感受不到故障的发生。
而另一方面,现代应用程序需要能够快速响应客户需求,需要快速迭代,这对基础设施可靠性形成巨大压力,一旦出现性能问题甚至服务中断,现代应用程序造成的影响反而比传统应用更严重。
为了应对这些需求,SRE(Site Reliability Engineer)应运而生。相比于传统的运维,SRE面临的挑战更大,应对的局面更为复杂。此时,一个好用工具无疑能对SRE工程师带来很大帮助,特别是能帮助SRE判断问题优先级、迅速发现故障并帮助解决的工具。AIOps的价值正在于此。随着软件与基础设施资产的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。
SRE与AIOps
从事运维工作的人一定对SRE(Site Reliability Engineer)不会陌生,这个从国外大型互联网公司流行起来的词汇,这几年准备在国内流行开来。今天,在中国不仅一些大型公司如阿里设有SRE这个岗位,一些传统公司甚至开始模仿。
SRE最早在十多年前Google提出并应用,Google出版的《Site Reliability Engineering》一书在国内广为流传。尽管在国内有些人把SRE直接理解为运维或者系统管理,其实SRE与运维和系统管理虽有重合,但却有很大区别。根据Google对SRE的定位,Google SRE团队的职责包括容量规划、分布式系统监控、负载均衡、服务容错、on-call、故障应急、业务协同支持等。
从工作定位来看,SRE有运维的工作。比如,SRE要负责生产环境(网络、服务器、存储、数据库、中间件等)的稳定性保障工作,在日常on-call与故障应急工作中,运维能力必不可少。但SRE不止于运维。严格地说,SRE是一个技能综合性岗位,不仅需要运维能力,也需要软件工程能力、技术架构能力、编码能力、以及项目管理与团队协作能力。而在SRE做些这个工作时,AIOps是可以发挥重要作用的。
实际上,随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的SRE工程师手中重要的工程工具。它能够高效地整合各种系统指标、日志以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具随后会被整合至数据之内,借此充实关于现状的情报,甚至有望自动高效地完成事件响应。
AIOps的5大应用场景
实际工作中,AIOps可以在以下五种场景发挥重要作用:
这也是AIOps扩展工具包的核心应用,它能帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。
事件响应当中,从众多警报中找到关键信息一直是个大问题。太多警报往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。
突发事件往往非常混乱,而且形势也瞬息万变。过多信息会导致团队迷失方向,为此必须为运营人员提供背景信息,帮助他们找到正确的方向。AIOps能够自动对事件做出映射,同时建立起全面了解。除了理解以外,背景信息在事件解决方面同样有着重要作用。
AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等,共同为AIOps提供良好的训练数据,进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累,模型智能化程度将持续提升,最终提供更具针对性的关联、洞见与建议。
任何来源的事件数据,都会与您的现有事件管理工具及工作流集成在一处。您输入的数据越多,机器学习模型的训练度也就越高,产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据,通过背景信息丰富数据内容,并将结果通报至相关团队或响应人员手中,以供各个事件管理团队加以使用。以此为基础,各团队将不必把时间浪费在不同工具的往来切换当中。
对于尚未开始使用AIOps的组织而言,这项工作听起来似乎繁复无比。没错,AIOps确有一定门槛,但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。
首先,考虑最适合自身需求的用例。缩小思考范围,从小处入手开始学习,并在测试中不断成长。
其次,保证工作流程的透明化。人们天然会抵触变化,所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。
最后,为囊括AI及ML元素的新型IT运营体系做好准备。如今,采用AIOps技术支持运营体系的组织越来越多,相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。