Intellyx公司首席分析师Jason English曾表示过,混合IT带来的复杂性、超高速交付以及自动化等挑战已经卷起一股难以摆脱的事件与警告风暴。而目前兴起的AIOps平台虽然远称不上完善,但已经能够为站点可靠性工程师(SRE)、运营人员以及开发人员提供应对这股风暴的重要助力。
David Lithicum在GIgaOm发表的《Key Criteria for AIOps》报告中写道,“这些AIOps工具全部围绕数据展开。”Lithicum强调,在系统监控过程中,真正能够暴露问题的永远是数据。对于专门负责预测故障或其他潜在问题/趋势的解决方案,一切AI系统都必然高度依赖于模型训练阶段的数据供应。
那么,AIOps是如何运作起效的?机器学习与人工(或应用)智能又怎么使用数据帮助忙碌的SRE与DevOps团队优化故障排查、解决实际问题?下面我们就一起说道说道。
先来看几条基本定义。
AI是什么?人工智能(AI)属于以机器模拟人类智能的技术的总称,而且绝不像大家想象中那么可怕。AI技术的目标非常简单——让软件具有学习、反应、发展、识别与自动化能力。
机器学习是什么?机器学习(ML)算法是在数据集上训练而成的。这些算法能够通过经验与“学习”实现自我调整以改善输出结果。机器学习算法往往能够从数据当中发现人类永远意识不到的未知数值、模式与连接。例如,在AIOps当中,机器学习能够显著增强事件响应能力。机器学习属于人工智能定义下的一个子集。
AIOps如何起效?
要理解AIOps的工作原理,我们先来看一个大多数开发团队可能都非常熟悉的示例。
在当今高度复杂的系统当中,无数团队往往被快速淹没在未知变量与警报噪声当中。开发者与工程师们一次又一次陷入信息泥潭,而且基本不可能逐一排查每一项警报、每一个事件。由此引发的警报疲劳,也导致真正紧急的警报遭到埋没和忽略。
我们不可能调遣一位拥有20年经验的优秀工程师专职筛查警报内容,这实在是对人才的严重浪费。这时候,就轮到AIOps出场了。
AIOps是一种新型工具,能够将AI与机器学习的强大能力引入遥测数据,借此帮助团队快速评估数据内容、采取应对行动并减少人力劳动需求。
简而言之,AIOps的主要负责在于数据智能与数据充实。它无法取代开发者角色;相反,它是要把宝贵的时间节约下来,提高信息的可观察性,最终协助开发者打造出更完美的成品。
AIOps与其他监控工具间的区别
AIOps能够为DevOps及站点可靠性工程团队提供丰富的洞见与自动化支持,帮助他们快速发现并解决问题。
其中智能要素的存在,正是AIOps平台与其他监控工具间的核心区别。也正是这一关键因素,让AIOps得以在现代工作场景下发挥出重要作用。
大多数企业已经意识到自身生产系统复杂性的快速提升。此外,软件功能的极大丰富也释放出新的增长机会,开始在增强客户体验、压制竞争对手方面扮演更为重要的角色。为此,开发人员不得不承受起巨大的压力,在创纪录的极短时间内无差错部署软件以快速解决未来事件。
机器学习与AI能够为待命团队提供必要支持,帮助他们在快节奏的环境中发现问题、确定问题优先级并快速实施故障排查与补救。AIOps平台还增强了现有事件管理团队及工作流程的运作方式,缩短了平均解决时间(MTTR)、降低人力劳动量,最终给员工及最终用户带来更好的体验。
实践中的AIOps
AIOps的价值当然不会仅限于噪声筛选。下面来看AIOps工具使用AI、机器学习与自动化技术增强事件响应流程的三种可行方式:
第一,主动异常检测:AIOps工具可自动检测环境中的异常,并触发其他监控解决方案及团队协作工具,例如Slack,通知以帮助开发者找出未知变量。
第二,事件关联与充实:AIOps工具能够将相关警报、事件与对应优先级关联起来,帮助我们快速关注最核心的问题;此外,AIOps还可利用历史数据或栈内其他工具的上下文信息对警报、事件进行充实,引导团队高效发现根本原因。目前最先进的AIOps工具已经能够使用机器生成,基于时间的聚类、相似性算法及其他机器学习模型与人工生成的决策增强相关逻辑,帮助用户自动排除异常噪声或低优先级警报。
第三,智能警报与通报:AIOps工具能够自动将事件数据路由至相应的事件响应个人或团队处,借此节约宝贵时间。特别是面对分布较为分散的自助服务团队而言,这种方式能够极大减少成员接收到的噪声警报数量、加快关键事件的数据发送效率,最终降低工作量。
AIOps工具运行机器学习以评估事件管理与监控工具中的数据,并结合以往类似情况将问题移交给相应职能个人/团队或专门的技术专家。
小结
积极拥抱AIOps,SRE与DevOps团队有望更深入地了解造成问题的根本原因、快速加以缓解、降低警报疲劳,保证团队能够将精力集中在最具价值的工作——创造性与战略性思考当中。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。