Intellyx公司首席分析师Jason English曾表示过,混合IT带来的复杂性、超高速交付以及自动化等挑战已经卷起一股难以摆脱的事件与警告风暴。而目前兴起的AIOps平台虽然远称不上完善,但已经能够为站点可靠性工程师(SRE)、运营人员以及开发人员提供应对这股风暴的重要助力。
David Lithicum在GIgaOm发表的《Key Criteria for AIOps》报告中写道,“这些AIOps工具全部围绕数据展开。”Lithicum强调,在系统监控过程中,真正能够暴露问题的永远是数据。对于专门负责预测故障或其他潜在问题/趋势的解决方案,一切AI系统都必然高度依赖于模型训练阶段的数据供应。
那么,AIOps是如何运作起效的?机器学习与人工(或应用)智能又怎么使用数据帮助忙碌的SRE与DevOps团队优化故障排查、解决实际问题?下面我们就一起说道说道。
先来看几条基本定义。
AI是什么?人工智能(AI)属于以机器模拟人类智能的技术的总称,而且绝不像大家想象中那么可怕。AI技术的目标非常简单——让软件具有学习、反应、发展、识别与自动化能力。
机器学习是什么?机器学习(ML)算法是在数据集上训练而成的。这些算法能够通过经验与“学习”实现自我调整以改善输出结果。机器学习算法往往能够从数据当中发现人类永远意识不到的未知数值、模式与连接。例如,在AIOps当中,机器学习能够显著增强事件响应能力。机器学习属于人工智能定义下的一个子集。
AIOps如何起效?
要理解AIOps的工作原理,我们先来看一个大多数开发团队可能都非常熟悉的示例。
在当今高度复杂的系统当中,无数团队往往被快速淹没在未知变量与警报噪声当中。开发者与工程师们一次又一次陷入信息泥潭,而且基本不可能逐一排查每一项警报、每一个事件。由此引发的警报疲劳,也导致真正紧急的警报遭到埋没和忽略。
我们不可能调遣一位拥有20年经验的优秀工程师专职筛查警报内容,这实在是对人才的严重浪费。这时候,就轮到AIOps出场了。
AIOps是一种新型工具,能够将AI与机器学习的强大能力引入遥测数据,借此帮助团队快速评估数据内容、采取应对行动并减少人力劳动需求。
简而言之,AIOps的主要负责在于数据智能与数据充实。它无法取代开发者角色;相反,它是要把宝贵的时间节约下来,提高信息的可观察性,最终协助开发者打造出更完美的成品。
AIOps与其他监控工具间的区别
AIOps能够为DevOps及站点可靠性工程团队提供丰富的洞见与自动化支持,帮助他们快速发现并解决问题。
其中智能要素的存在,正是AIOps平台与其他监控工具间的核心区别。也正是这一关键因素,让AIOps得以在现代工作场景下发挥出重要作用。
大多数企业已经意识到自身生产系统复杂性的快速提升。此外,软件功能的极大丰富也释放出新的增长机会,开始在增强客户体验、压制竞争对手方面扮演更为重要的角色。为此,开发人员不得不承受起巨大的压力,在创纪录的极短时间内无差错部署软件以快速解决未来事件。
机器学习与AI能够为待命团队提供必要支持,帮助他们在快节奏的环境中发现问题、确定问题优先级并快速实施故障排查与补救。AIOps平台还增强了现有事件管理团队及工作流程的运作方式,缩短了平均解决时间(MTTR)、降低人力劳动量,最终给员工及最终用户带来更好的体验。
实践中的AIOps
AIOps的价值当然不会仅限于噪声筛选。下面来看AIOps工具使用AI、机器学习与自动化技术增强事件响应流程的三种可行方式:
第一,主动异常检测:AIOps工具可自动检测环境中的异常,并触发其他监控解决方案及团队协作工具,例如Slack,通知以帮助开发者找出未知变量。
第二,事件关联与充实:AIOps工具能够将相关警报、事件与对应优先级关联起来,帮助我们快速关注最核心的问题;此外,AIOps还可利用历史数据或栈内其他工具的上下文信息对警报、事件进行充实,引导团队高效发现根本原因。目前最先进的AIOps工具已经能够使用机器生成,基于时间的聚类、相似性算法及其他机器学习模型与人工生成的决策增强相关逻辑,帮助用户自动排除异常噪声或低优先级警报。
第三,智能警报与通报:AIOps工具能够自动将事件数据路由至相应的事件响应个人或团队处,借此节约宝贵时间。特别是面对分布较为分散的自助服务团队而言,这种方式能够极大减少成员接收到的噪声警报数量、加快关键事件的数据发送效率,最终降低工作量。
AIOps工具运行机器学习以评估事件管理与监控工具中的数据,并结合以往类似情况将问题移交给相应职能个人/团队或专门的技术专家。
小结
积极拥抱AIOps,SRE与DevOps团队有望更深入地了解造成问题的根本原因、快速加以缓解、降低警报疲劳,保证团队能够将精力集中在最具价值的工作——创造性与战略性思考当中。
好文章,需要你的鼓励
在“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场以“AIGC创作新范式——双脑智能时代:心智驱动的生产力变革”为主题的分论坛,成为现场最具张力的对话空间。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
Linux Mint团队计划加快发布周期,在未来几个月推出两个新版本。LMDE 7代号"Gigi"基于Debian 13开发,将包含libAdapta库以支持Gtk4应用的主题功能。新版本将停止提供32位版本支持。同时Cinnamon桌面的Wayland支持持续改进,在菜单、状态小程序和键盘输入处理方面表现更佳,有望成为完整支持Wayland的重要桌面环境之一。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。