随着企业网络的不断发展,特别是面向数字化业务应用的转换,维持服务的正常运行时间已经成为一项令人头痛的挑战。例如,当前服务往往需要与遗留系统共存,增加了管理工作的复杂性;随着时间推移,基础设施组件与服务层面的多样性往往迫使我们部署多种管理工具;管理工具的增加,导致整体视图的连续性变得更加难以维护,而由此产生的信息孤岛也导致可用数据的使用效率一路走低。
令问题更加复杂的点在于,这些组件生成的事件、日志与信息越来越多,最终导致IT运营团队只能超负荷工作。基于上述现实,我们越来越难以找到基础设施中的问题根源、或者以主动方式解决问题。这不仅导致平均恢复时间(MTTR)变长,也将导致服务交付质量下降,最终带来糟糕的客户体验并影响到客户的整体满意度。
幸运的是,随着挑战的出现,解决挑战的方法也在不断发展。人工智能技术给AIOps工具及平台带来了前所未有的发展前景。AIOps平台提供的功能,已经有望全面契合现代商业服务交付提出的数字化转型复杂性与规模化需求。
根据Gartner的观点,“AIOps平台将大数据与机器学习功能结合起来,以可扩展的方式摄取并分析IT流程中快速产生且各类各异的数据量,由此支持各项核心IT运营功能。该平台能够同时支持多个数据源、多种数据收集方法以及分析与表示技术。”
最出色的AIOps工具需要通过数据汇总、提取洞见并最终根据智能产出提供价值。那么,理想的AIOps工具到底需要哪些基本功能?这七点不容忽视。
第一,数据收集。寻找能够与其他方案完全搭配的系统。在本质上,企业的AIOps解决方案必须能够从多种来源处收集信息,包括服务及应用程序等物理基础设施组件与虚拟实体。在部署期间,企业的AIOps方案还必须有能力对接现有监控工具以及新兴技术。
第二,数据聚合。关注有助于促进跨域协作的功能。首先,企业的AIOps解决方案需要能够聚合来自IT基础设施监控(ITIM)、网络性能监控与诊断(NPMD)、数字体验监控(DEM)以及应用程序性能监控(APM)端的数据。
第三,数据充实。聚合是实现数据使用的第一步,但要获得真正的价值,我们的AIOps还需要拥有对所收集数据加以充实的能力。AIOps需要通过历史数据,例如日志与事件等提供追溯视图,并配合应用元数据与标签对索引中的搜索内容加以充实。
通过将数据点与时间戳叠加起来,我们可以对性能及遥测信息等实时数据加以充实,借此生成具备现实意义的时间序列信息。在后续使用这些信息时,企业还可以添加合适的标签以建立键值对,充分发挥数据潜能。
第四,分析洞见。洞见能力是AIOps工具的价值核心所在。很明显,单凭最基本的相关性与统计分析功能,并不足以支撑我们确定复杂的根本原因。模式发现与异常检测是一套出色AIOps系统中的关键组成部分,也能够为根据洞见促进规范制定提供重要的实现基础。除了基础设施运营洞见之外,我们的AIOps系统还应分析基础设施问题对于业务的具体影响。由此实现的服务水平协议(SLA)管理,将帮助企业在与非技术相关方交互时获得巨大的便利与价值。
第五,自动化。自动化能够为IT运营管理体系带来极高的效率与效能。因此,企业的AIOps工具最好能够快速生成并部署工作流,进而自动实现各项功能。具体来讲,AIOps系统应该提供自动化库维护功能、跨运营流快速实现工作流共享等选项。出色的自动化功能不仅能够提高运营敏捷性,同时也能够显著减少意外错误、极大增强服务可用性。
第六,易用性。部分AIOps平台提供基于云的管理层,能够帮助IT团队以安全的分布式方式同时解决多个站点上多位客户的问题,由此提高管理效率。通过监控数据管道,AIOps平台能够帮助其他工具轻松访问收集到的信息、极大促进各团队间的协作。
第七,灵活部署。在服务保证方面,不同的企业总有不同的实际情况与具体需求。因此在选择AIOps平台时,无论采取自主托管、远程管理还是平台即服务,AIOps部署模型都必须有能力满足企业独特的业务与运营需求。
小结
根据Gartner的预测,到2023年2月,将有30%的大型企业使用AIOps平台。AIOps用例已经证明,现有技术完全有能力实现真正主动的IT运营管理功能。由其提供的出色方法,将帮助我们在面对不断发展的基础设施始终拥有出色且行之有效的复杂性管理方法。
企业在选择AIOps工具时,务必小心谨慎。只有满足以上七项基本要求的出色AIOps工具,才能巩固业务战略成果、带来稳固可靠的IT运营能力。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。