DevOps的核心在于以人力扩展技术,而AIOps则强调以技术扩展技术。在当今世界,相当一部分重要的业务工作已经完成数字化。IT团队必须适应并紧跟变化的步伐,同时严格保证运营基础设施的零停机时间。
但随着IT在业务运营体系中重要性的步步攀升,构建及支持客户体验的IT团队在生产力与敏捷性方面却是一路下滑。这无疑会给企业造成严重后果。一旦企业的应用与服务出现故障,企业必然会失去客户、遭遇收入缩水。而如果IT团队将主要精力投入到解决紧急问题身上,敏捷性与创新能力则会受到影响。换言之,我们必须在成长、竞争与发展当中找到最完美的平衡点。
如今,企业获得的客户数据量极为庞大,已经根本无法以手动方式通过旧有工具进行监控与分析。而这也给以AI为主导的运营方式演变打开了大门。新时代下的关注焦点,正是AIOps。通过IT监管的简化与全面自动化,AIOps帮助IT运营团队重新掌握IT环境主动权,同时快速发展并修复问题以防止业务中断。
SRE与DevOps团队面临新的挑战
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。
AIOps给DevOps团队带来了什么
AIOps提供独特的解决方案,能够在应对运营挑战的同时,涵盖企业服务保证策略与业务流程中的各个方面。
总结来讲,我们需要将人力解放出来,专注于处理关键任务,让他们提供更好的客户体验与更完善的服务。要实现这一目标,我们首先需要脱离随技术不断扩展而疲于运营的窘境。
AIOps能够继续支持企业多年来投资部署的原有工具与基础设施,并在整个流程中引入关键的AIOps智能层,由此极大提升扩展效率。通过将AI、机器学习算法、可观察及监控数据结合起来,AIOps能够理解环境正常行为并生成相应警报。而这一切必须在靠近数字服务、产生大量数据的边缘位置保持稳定运营。
一旦本地及运营环境中发生异常,AIOps将立即起效,将不同来源处的重要警报关联起来并提供具备可操作性的上下文洞见。此外,出色且全面的AIOps解决方案甚至能够发现造成异常的根本原因与影响,并根据原有解决步骤及反馈要求制定出潜在的解决方案。整个流程完全发生在虚拟工作区之内,团队成员们可以在其中开展协作、结果可视化并提供反馈结果。
AIOps会通知并授权适当人员以采取适当措施,有效简化并厘清复杂的团队结构、参与方法、沟通安排与升级路径。即使立足全球范围,AIOps仍然能够保证合适的人员即时加入并开展协作。
当情况或事件浮出水面,AIOps还会将消息实时发送给用户、通过基础数据与机器学习算法快速提取洞见,据此判断事件应该由哪些团队负责并向相应人员发出通知。通知当中不仅包含事件描述,同时也提供响应工作所需要的上下文信息、统一的视图报告,并在整个事件生命周期中持续保持同步。事件得到解决之后,AIOps将通过类似事件与预测分析提前发现未来可能再次出现的问题,同时显著简化取证过程以加快后续响应程度。
小结
DevOps团队要想在当今乃至未来的现实场景中不断创造新技术,唯一的方法就是全面引入AI技术。相信在AIOps的支持下,企业将能够专注于建立并改善客户体验,拓展出前所未有的业务与利润空间。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。