随着数字化浪潮的推进,出现了越来越多大型和超大型数据中心,通常这些数据中心承载了大量业务,其中不乏事关国计民生的应用(比如公有云服务商的数据中心),一旦出现故障,必须以闪电般的速度加以解决,最好让最终用户或客户根本就感受不到故障的发生。
而另一方面,现代应用程序需要能够快速响应客户需求,需要快速迭代,这对基础设施可靠性形成巨大压力,一旦出现性能问题甚至服务中断,现代应用程序造成的影响反而比传统应用更严重。
为了应对这些需求,SRE(Site Reliability Engineer)应运而生。相比于传统的运维,SRE面临的挑战更大,应对的局面更为复杂。此时,一个好用工具无疑能对SRE工程师带来很大帮助,特别是能帮助SRE判断问题优先级、迅速发现故障并帮助解决的工具。AIOps的价值正在于此。随着软件与基础设施资产的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。
SRE与AIOps
从事运维工作的人一定对SRE(Site Reliability Engineer)不会陌生,这个从国外大型互联网公司流行起来的词汇,这几年准备在国内流行开来。今天,在中国不仅一些大型公司如阿里设有SRE这个岗位,一些传统公司甚至开始模仿。
SRE最早在十多年前Google提出并应用,Google出版的《Site Reliability Engineering》一书在国内广为流传。尽管在国内有些人把SRE直接理解为运维或者系统管理,其实SRE与运维和系统管理虽有重合,但却有很大区别。根据Google对SRE的定位,Google SRE团队的职责包括容量规划、分布式系统监控、负载均衡、服务容错、on-call、故障应急、业务协同支持等。
从工作定位来看,SRE有运维的工作。比如,SRE要负责生产环境(网络、服务器、存储、数据库、中间件等)的稳定性保障工作,在日常on-call与故障应急工作中,运维能力必不可少。但SRE不止于运维。严格地说,SRE是一个技能综合性岗位,不仅需要运维能力,也需要软件工程能力、技术架构能力、编码能力、以及项目管理与团队协作能力。而在SRE做些这个工作时,AIOps是可以发挥重要作用的。
实际上,随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的SRE工程师手中重要的工程工具。它能够高效地整合各种系统指标、日志以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具随后会被整合至数据之内,借此充实关于现状的情报,甚至有望自动高效地完成事件响应。
AIOps的5大应用场景
实际工作中,AIOps可以在以下五种场景发挥重要作用:
这也是AIOps扩展工具包的核心应用,它能帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。
事件响应当中,从众多警报中找到关键信息一直是个大问题。太多警报往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。
突发事件往往非常混乱,而且形势也瞬息万变。过多信息会导致团队迷失方向,为此必须为运营人员提供背景信息,帮助他们找到正确的方向。AIOps能够自动对事件做出映射,同时建立起全面了解。除了理解以外,背景信息在事件解决方面同样有着重要作用。
AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等,共同为AIOps提供良好的训练数据,进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累,模型智能化程度将持续提升,最终提供更具针对性的关联、洞见与建议。
任何来源的事件数据,都会与您的现有事件管理工具及工作流集成在一处。您输入的数据越多,机器学习模型的训练度也就越高,产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据,通过背景信息丰富数据内容,并将结果通报至相关团队或响应人员手中,以供各个事件管理团队加以使用。以此为基础,各团队将不必把时间浪费在不同工具的往来切换当中。
对于尚未开始使用AIOps的组织而言,这项工作听起来似乎繁复无比。没错,AIOps确有一定门槛,但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。
首先,考虑最适合自身需求的用例。缩小思考范围,从小处入手开始学习,并在测试中不断成长。
其次,保证工作流程的透明化。人们天然会抵触变化,所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。
最后,为囊括AI及ML元素的新型IT运营体系做好准备。如今,采用AIOps技术支持运营体系的组织越来越多,相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。
好文章,需要你的鼓励
Canva宣布收购生成式AI内容创作初创公司Leonardo.ai,交易条款未披露,但采用现金加股票的混合方式。Leonardo.ai的120名员工将全部加入Canva。Leonardo.ai成立于2022年,拥有1900万注册用户,其工具已创建超过10亿张图像。该公司将继续独立运营,专注于快速创新和研发。此次收购旨在帮助Canva扩展其Magic Studio生成式AI套件功能。
希伯来大学研究团队开发的Story2Board系统实现了从文字故事到专业故事板的自动转换突破。该系统采用潜在面板锚定和相互注意力数值混合两项核心技术,在保持角色一致性的同时实现丰富的视觉表现力。系统无需训练即可运行,能够生成电影级构图效果的连续画面,为内容创作、教育和娱乐产业提供了强大的AI辅助工具,代表了人机协作创作的新模式。
亚马逊推出Quick Suite软件平台,旨在简化AI智能体和企业聊天机器人的创建过程。该平台支持50个企业级应用集成,包括Office 365、Slack等,提供无代码环境连接内部文档和数据源。平台包含Quick Flows自动化工具、Quick Research研究功能等组件。尽管降低了技术门槛,但AI智能体的准确性仍存疑虑,研究显示其办公任务错误率达70%。
北京邮电大学联合腾讯团队开发的We-Math 2.0系统,通过构建491个知识点的数学知识体系、创新的三维难度建模和渐进式强化学习框架,让AI模型获得了真正的数学推理能力。该系统仅用9800个高质量样本就达到了与大规模数据训练相当的性能,在多个基准测试中表现优异,为AI数学教育应用开辟了新道路。