DevOps的核心在于以人力扩展技术,而AIOps则强调以技术扩展技术。在当今世界,相当一部分重要的业务工作已经完成数字化。IT团队必须适应并紧跟变化的步伐,同时严格保证运营基础设施的零停机时间。
但随着IT在业务运营体系中重要性的步步攀升,构建及支持客户体验的IT团队在生产力与敏捷性方面却是一路下滑。这无疑会给企业造成严重后果。一旦企业的应用与服务出现故障,企业必然会失去客户、遭遇收入缩水。而如果IT团队将主要精力投入到解决紧急问题身上,敏捷性与创新能力则会受到影响。换言之,我们必须在成长、竞争与发展当中找到最完美的平衡点。
如今,企业获得的客户数据量极为庞大,已经根本无法以手动方式通过旧有工具进行监控与分析。而这也给以AI为主导的运营方式演变打开了大门。新时代下的关注焦点,正是AIOps。通过IT监管的简化与全面自动化,AIOps帮助IT运营团队重新掌握IT环境主动权,同时快速发展并修复问题以防止业务中断。
SRE与DevOps团队面临新的挑战
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。
AIOps给DevOps团队带来了什么
AIOps提供独特的解决方案,能够在应对运营挑战的同时,涵盖企业服务保证策略与业务流程中的各个方面。
总结来讲,我们需要将人力解放出来,专注于处理关键任务,让他们提供更好的客户体验与更完善的服务。要实现这一目标,我们首先需要脱离随技术不断扩展而疲于运营的窘境。
AIOps能够继续支持企业多年来投资部署的原有工具与基础设施,并在整个流程中引入关键的AIOps智能层,由此极大提升扩展效率。通过将AI、机器学习算法、可观察及监控数据结合起来,AIOps能够理解环境正常行为并生成相应警报。而这一切必须在靠近数字服务、产生大量数据的边缘位置保持稳定运营。
一旦本地及运营环境中发生异常,AIOps将立即起效,将不同来源处的重要警报关联起来并提供具备可操作性的上下文洞见。此外,出色且全面的AIOps解决方案甚至能够发现造成异常的根本原因与影响,并根据原有解决步骤及反馈要求制定出潜在的解决方案。整个流程完全发生在虚拟工作区之内,团队成员们可以在其中开展协作、结果可视化并提供反馈结果。
AIOps会通知并授权适当人员以采取适当措施,有效简化并厘清复杂的团队结构、参与方法、沟通安排与升级路径。即使立足全球范围,AIOps仍然能够保证合适的人员即时加入并开展协作。
当情况或事件浮出水面,AIOps还会将消息实时发送给用户、通过基础数据与机器学习算法快速提取洞见,据此判断事件应该由哪些团队负责并向相应人员发出通知。通知当中不仅包含事件描述,同时也提供响应工作所需要的上下文信息、统一的视图报告,并在整个事件生命周期中持续保持同步。事件得到解决之后,AIOps将通过类似事件与预测分析提前发现未来可能再次出现的问题,同时显著简化取证过程以加快后续响应程度。
小结
DevOps团队要想在当今乃至未来的现实场景中不断创造新技术,唯一的方法就是全面引入AI技术。相信在AIOps的支持下,企业将能够专注于建立并改善客户体验,拓展出前所未有的业务与利润空间。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。