DevOps的核心在于以人力扩展技术,而AIOps则强调以技术扩展技术。在当今世界,相当一部分重要的业务工作已经完成数字化。IT团队必须适应并紧跟变化的步伐,同时严格保证运营基础设施的零停机时间。
但随着IT在业务运营体系中重要性的步步攀升,构建及支持客户体验的IT团队在生产力与敏捷性方面却是一路下滑。这无疑会给企业造成严重后果。一旦企业的应用与服务出现故障,企业必然会失去客户、遭遇收入缩水。而如果IT团队将主要精力投入到解决紧急问题身上,敏捷性与创新能力则会受到影响。换言之,我们必须在成长、竞争与发展当中找到最完美的平衡点。
如今,企业获得的客户数据量极为庞大,已经根本无法以手动方式通过旧有工具进行监控与分析。而这也给以AI为主导的运营方式演变打开了大门。新时代下的关注焦点,正是AIOps。通过IT监管的简化与全面自动化,AIOps帮助IT运营团队重新掌握IT环境主动权,同时快速发展并修复问题以防止业务中断。
SRE与DevOps团队面临新的挑战
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。
AIOps给DevOps团队带来了什么
AIOps提供独特的解决方案,能够在应对运营挑战的同时,涵盖企业服务保证策略与业务流程中的各个方面。
总结来讲,我们需要将人力解放出来,专注于处理关键任务,让他们提供更好的客户体验与更完善的服务。要实现这一目标,我们首先需要脱离随技术不断扩展而疲于运营的窘境。
AIOps能够继续支持企业多年来投资部署的原有工具与基础设施,并在整个流程中引入关键的AIOps智能层,由此极大提升扩展效率。通过将AI、机器学习算法、可观察及监控数据结合起来,AIOps能够理解环境正常行为并生成相应警报。而这一切必须在靠近数字服务、产生大量数据的边缘位置保持稳定运营。
一旦本地及运营环境中发生异常,AIOps将立即起效,将不同来源处的重要警报关联起来并提供具备可操作性的上下文洞见。此外,出色且全面的AIOps解决方案甚至能够发现造成异常的根本原因与影响,并根据原有解决步骤及反馈要求制定出潜在的解决方案。整个流程完全发生在虚拟工作区之内,团队成员们可以在其中开展协作、结果可视化并提供反馈结果。
AIOps会通知并授权适当人员以采取适当措施,有效简化并厘清复杂的团队结构、参与方法、沟通安排与升级路径。即使立足全球范围,AIOps仍然能够保证合适的人员即时加入并开展协作。
当情况或事件浮出水面,AIOps还会将消息实时发送给用户、通过基础数据与机器学习算法快速提取洞见,据此判断事件应该由哪些团队负责并向相应人员发出通知。通知当中不仅包含事件描述,同时也提供响应工作所需要的上下文信息、统一的视图报告,并在整个事件生命周期中持续保持同步。事件得到解决之后,AIOps将通过类似事件与预测分析提前发现未来可能再次出现的问题,同时显著简化取证过程以加快后续响应程度。
小结
DevOps团队要想在当今乃至未来的现实场景中不断创造新技术,唯一的方法就是全面引入AI技术。相信在AIOps的支持下,企业将能够专注于建立并改善客户体验,拓展出前所未有的业务与利润空间。
好文章,需要你的鼓励
Docker公司发布重大新功能,旨在简化智能体AI应用的构建、运行和部署。公司扩展了Docker Compose工具以支持AI智能体和模型的大规模部署,并推出Docker Offload服务,允许开发者将AI工作负载转移到云端。新功能还支持模型上下文协议网关的安全连接,并与谷歌云、微软Azure等合作伙伴集成。
这项研究首次将在线强化学习成功应用于流匹配模型,通过巧妙的ODE到SDE转换和去噪减少策略,显著提升了AI图像生成的精确度和可控性。在复合场景生成、文字渲染等任务上取得突破性进展,为AI生成领域开辟了新的技术路径。
欧盟发布AI法案实施细则,要求谷歌、Meta、OpenAI等公司承诺不使用盗版材料训练AI,详细披露训练数据来源和模型设计理念。新规还要求公司尊重付费墙和网站爬虫限制,公开训练和推理的总能耗,并在5-10天内向欧盟AI办公室报告安全事件。违规企业可能面临年销售额7%或3%的罚款。
这篇由阿里巴巴集团联合多所知名高校发表的综述论文,系统梳理了统一多模态理解与生成模型的最新发展。研究将现有模型分为扩散、自回归和混合三大类型,详细分析了不同图像编码策略的特点,整理了相关数据集和评估基准,并深入探讨了当前面临的技术挑战。