DevOps的核心在于以人力扩展技术,而AIOps则强调以技术扩展技术。在当今世界,相当一部分重要的业务工作已经完成数字化。IT团队必须适应并紧跟变化的步伐,同时严格保证运营基础设施的零停机时间。
但随着IT在业务运营体系中重要性的步步攀升,构建及支持客户体验的IT团队在生产力与敏捷性方面却是一路下滑。这无疑会给企业造成严重后果。一旦企业的应用与服务出现故障,企业必然会失去客户、遭遇收入缩水。而如果IT团队将主要精力投入到解决紧急问题身上,敏捷性与创新能力则会受到影响。换言之,我们必须在成长、竞争与发展当中找到最完美的平衡点。
如今,企业获得的客户数据量极为庞大,已经根本无法以手动方式通过旧有工具进行监控与分析。而这也给以AI为主导的运营方式演变打开了大门。新时代下的关注焦点,正是AIOps。通过IT监管的简化与全面自动化,AIOps帮助IT运营团队重新掌握IT环境主动权,同时快速发展并修复问题以防止业务中断。
SRE与DevOps团队面临新的挑战
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。
AIOps给DevOps团队带来了什么
AIOps提供独特的解决方案,能够在应对运营挑战的同时,涵盖企业服务保证策略与业务流程中的各个方面。
总结来讲,我们需要将人力解放出来,专注于处理关键任务,让他们提供更好的客户体验与更完善的服务。要实现这一目标,我们首先需要脱离随技术不断扩展而疲于运营的窘境。
AIOps能够继续支持企业多年来投资部署的原有工具与基础设施,并在整个流程中引入关键的AIOps智能层,由此极大提升扩展效率。通过将AI、机器学习算法、可观察及监控数据结合起来,AIOps能够理解环境正常行为并生成相应警报。而这一切必须在靠近数字服务、产生大量数据的边缘位置保持稳定运营。
一旦本地及运营环境中发生异常,AIOps将立即起效,将不同来源处的重要警报关联起来并提供具备可操作性的上下文洞见。此外,出色且全面的AIOps解决方案甚至能够发现造成异常的根本原因与影响,并根据原有解决步骤及反馈要求制定出潜在的解决方案。整个流程完全发生在虚拟工作区之内,团队成员们可以在其中开展协作、结果可视化并提供反馈结果。
AIOps会通知并授权适当人员以采取适当措施,有效简化并厘清复杂的团队结构、参与方法、沟通安排与升级路径。即使立足全球范围,AIOps仍然能够保证合适的人员即时加入并开展协作。
当情况或事件浮出水面,AIOps还会将消息实时发送给用户、通过基础数据与机器学习算法快速提取洞见,据此判断事件应该由哪些团队负责并向相应人员发出通知。通知当中不仅包含事件描述,同时也提供响应工作所需要的上下文信息、统一的视图报告,并在整个事件生命周期中持续保持同步。事件得到解决之后,AIOps将通过类似事件与预测分析提前发现未来可能再次出现的问题,同时显著简化取证过程以加快后续响应程度。
小结
DevOps团队要想在当今乃至未来的现实场景中不断创造新技术,唯一的方法就是全面引入AI技术。相信在AIOps的支持下,企业将能够专注于建立并改善客户体验,拓展出前所未有的业务与利润空间。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。