Intellyx公司首席分析师Jason English曾表示过,混合IT带来的复杂性、超高速交付以及自动化等挑战已经卷起一股难以摆脱的事件与警告风暴。而目前兴起的AIOps平台虽然远称不上完善,但已经能够为站点可靠性工程师(SRE)、运营人员以及开发人员提供应对这股风暴的重要助力。
David Lithicum在GIgaOm发表的《Key Criteria for AIOps》报告中写道,“这些AIOps工具全部围绕数据展开。”Lithicum强调,在系统监控过程中,真正能够暴露问题的永远是数据。对于专门负责预测故障或其他潜在问题/趋势的解决方案,一切AI系统都必然高度依赖于模型训练阶段的数据供应。
那么,AIOps是如何运作起效的?机器学习与人工(或应用)智能又怎么使用数据帮助忙碌的SRE与DevOps团队优化故障排查、解决实际问题?下面我们就一起说道说道。
先来看几条基本定义。
AI是什么?人工智能(AI)属于以机器模拟人类智能的技术的总称,而且绝不像大家想象中那么可怕。AI技术的目标非常简单——让软件具有学习、反应、发展、识别与自动化能力。
机器学习是什么?机器学习(ML)算法是在数据集上训练而成的。这些算法能够通过经验与“学习”实现自我调整以改善输出结果。机器学习算法往往能够从数据当中发现人类永远意识不到的未知数值、模式与连接。例如,在AIOps当中,机器学习能够显著增强事件响应能力。机器学习属于人工智能定义下的一个子集。
AIOps如何起效?
要理解AIOps的工作原理,我们先来看一个大多数开发团队可能都非常熟悉的示例。
在当今高度复杂的系统当中,无数团队往往被快速淹没在未知变量与警报噪声当中。开发者与工程师们一次又一次陷入信息泥潭,而且基本不可能逐一排查每一项警报、每一个事件。由此引发的警报疲劳,也导致真正紧急的警报遭到埋没和忽略。
我们不可能调遣一位拥有20年经验的优秀工程师专职筛查警报内容,这实在是对人才的严重浪费。这时候,就轮到AIOps出场了。
AIOps是一种新型工具,能够将AI与机器学习的强大能力引入遥测数据,借此帮助团队快速评估数据内容、采取应对行动并减少人力劳动需求。
简而言之,AIOps的主要负责在于数据智能与数据充实。它无法取代开发者角色;相反,它是要把宝贵的时间节约下来,提高信息的可观察性,最终协助开发者打造出更完美的成品。
AIOps与其他监控工具间的区别
AIOps能够为DevOps及站点可靠性工程团队提供丰富的洞见与自动化支持,帮助他们快速发现并解决问题。
其中智能要素的存在,正是AIOps平台与其他监控工具间的核心区别。也正是这一关键因素,让AIOps得以在现代工作场景下发挥出重要作用。
大多数企业已经意识到自身生产系统复杂性的快速提升。此外,软件功能的极大丰富也释放出新的增长机会,开始在增强客户体验、压制竞争对手方面扮演更为重要的角色。为此,开发人员不得不承受起巨大的压力,在创纪录的极短时间内无差错部署软件以快速解决未来事件。
机器学习与AI能够为待命团队提供必要支持,帮助他们在快节奏的环境中发现问题、确定问题优先级并快速实施故障排查与补救。AIOps平台还增强了现有事件管理团队及工作流程的运作方式,缩短了平均解决时间(MTTR)、降低人力劳动量,最终给员工及最终用户带来更好的体验。
实践中的AIOps
AIOps的价值当然不会仅限于噪声筛选。下面来看AIOps工具使用AI、机器学习与自动化技术增强事件响应流程的三种可行方式:
第一,主动异常检测:AIOps工具可自动检测环境中的异常,并触发其他监控解决方案及团队协作工具,例如Slack,通知以帮助开发者找出未知变量。
第二,事件关联与充实:AIOps工具能够将相关警报、事件与对应优先级关联起来,帮助我们快速关注最核心的问题;此外,AIOps还可利用历史数据或栈内其他工具的上下文信息对警报、事件进行充实,引导团队高效发现根本原因。目前最先进的AIOps工具已经能够使用机器生成,基于时间的聚类、相似性算法及其他机器学习模型与人工生成的决策增强相关逻辑,帮助用户自动排除异常噪声或低优先级警报。
第三,智能警报与通报:AIOps工具能够自动将事件数据路由至相应的事件响应个人或团队处,借此节约宝贵时间。特别是面对分布较为分散的自助服务团队而言,这种方式能够极大减少成员接收到的噪声警报数量、加快关键事件的数据发送效率,最终降低工作量。
AIOps工具运行机器学习以评估事件管理与监控工具中的数据,并结合以往类似情况将问题移交给相应职能个人/团队或专门的技术专家。
小结
积极拥抱AIOps,SRE与DevOps团队有望更深入地了解造成问题的根本原因、快速加以缓解、降低警报疲劳,保证团队能够将精力集中在最具价值的工作——创造性与战略性思考当中。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。