DevOps的核心在于以人力扩展技术,而AIOps则强调以技术扩展技术。在当今世界,相当一部分重要的业务工作已经完成数字化。IT团队必须适应并紧跟变化的步伐,同时严格保证运营基础设施的零停机时间。
但随着IT在业务运营体系中重要性的步步攀升,构建及支持客户体验的IT团队在生产力与敏捷性方面却是一路下滑。这无疑会给企业造成严重后果。一旦企业的应用与服务出现故障,企业必然会失去客户、遭遇收入缩水。而如果IT团队将主要精力投入到解决紧急问题身上,敏捷性与创新能力则会受到影响。换言之,我们必须在成长、竞争与发展当中找到最完美的平衡点。
如今,企业获得的客户数据量极为庞大,已经根本无法以手动方式通过旧有工具进行监控与分析。而这也给以AI为主导的运营方式演变打开了大门。新时代下的关注焦点,正是AIOps。通过IT监管的简化与全面自动化,AIOps帮助IT运营团队重新掌握IT环境主动权,同时快速发展并修复问题以防止业务中断。
SRE与DevOps团队面临新的挑战
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。
AIOps给DevOps团队带来了什么
AIOps提供独特的解决方案,能够在应对运营挑战的同时,涵盖企业服务保证策略与业务流程中的各个方面。
总结来讲,我们需要将人力解放出来,专注于处理关键任务,让他们提供更好的客户体验与更完善的服务。要实现这一目标,我们首先需要脱离随技术不断扩展而疲于运营的窘境。
AIOps能够继续支持企业多年来投资部署的原有工具与基础设施,并在整个流程中引入关键的AIOps智能层,由此极大提升扩展效率。通过将AI、机器学习算法、可观察及监控数据结合起来,AIOps能够理解环境正常行为并生成相应警报。而这一切必须在靠近数字服务、产生大量数据的边缘位置保持稳定运营。
一旦本地及运营环境中发生异常,AIOps将立即起效,将不同来源处的重要警报关联起来并提供具备可操作性的上下文洞见。此外,出色且全面的AIOps解决方案甚至能够发现造成异常的根本原因与影响,并根据原有解决步骤及反馈要求制定出潜在的解决方案。整个流程完全发生在虚拟工作区之内,团队成员们可以在其中开展协作、结果可视化并提供反馈结果。
AIOps会通知并授权适当人员以采取适当措施,有效简化并厘清复杂的团队结构、参与方法、沟通安排与升级路径。即使立足全球范围,AIOps仍然能够保证合适的人员即时加入并开展协作。
当情况或事件浮出水面,AIOps还会将消息实时发送给用户、通过基础数据与机器学习算法快速提取洞见,据此判断事件应该由哪些团队负责并向相应人员发出通知。通知当中不仅包含事件描述,同时也提供响应工作所需要的上下文信息、统一的视图报告,并在整个事件生命周期中持续保持同步。事件得到解决之后,AIOps将通过类似事件与预测分析提前发现未来可能再次出现的问题,同时显著简化取证过程以加快后续响应程度。
小结
DevOps团队要想在当今乃至未来的现实场景中不断创造新技术,唯一的方法就是全面引入AI技术。相信在AIOps的支持下,企业将能够专注于建立并改善客户体验,拓展出前所未有的业务与利润空间。
好文章,需要你的鼓励
在2025年KubeCon/CloudNativeCon北美大会上,云原生开发社区正努力超越AI炒作,理性应对人工智能带来的风险与机遇。随着开发者和运营人员广泛使用AI工具构建AI驱动的应用功能,平台工程迎来复兴。CNCF推出Kubernetes AI认证合规程序,为AI工作负载在Kubernetes上的部署设定开放标准。会议展示了网络基础设施层优化、AI辅助开发安全性提升以及AI SRE改善可观测性工作流等创新成果。
香港大学研究团队提出LightReasoner框架,通过让小型"业余"模型与大型"专家"模型对比,识别关键推理步骤并转化为训练信号。该方法在数学推理任务上实现28.1%性能提升,同时将训练时间、样本需求和词元使用量分别减少90%、80%和99%,完全无需人工标注。研究颠覆了传统训练思路,证明通过模型间行为差异可以实现高效的自监督学习,为资源受限环境下的AI能力提升提供了新路径。
DeepL作为欧洲AI领域的代表企业,正将业务拓展至翻译之外,推出面向企业的AI代理DeepL Agent。CEO库蒂洛夫斯基认为,虽然在日常翻译场景面临更多竞争,但在关键业务级别的企业翻译需求中,DeepL凭借高精度、质量控制和合规性仍具优势。他对欧盟AI法案表示担忧,认为过度监管可能阻碍创新,使欧洲在全球AI竞争中落后。
马里兰大学研究团队开发了MONKEY适配器,一种无需额外训练的AI绘画控制技术。该方法通过"两步走"策略解决了个性化AI绘画中主体保真与背景控制难以兼得的问题:先让AI识别主体区域生成"透明胶片",再在第二次生成中让主体区域听从参考图片、背景区域听从文字描述。实验证明该方法在保持主体特征和响应文字要求两方面均表现出色,为AI绘画的精细化控制提供了新思路。