关于开源工具与专有工具的争论早已不是什么新鲜事。但在AIOps工具方面,还有其他一些特殊的因素需要考量。
AIOps工具市场不仅特别复杂,而且相关工具总是有着很多独特的性质,例如需要访问敏感数据,往往进一步影响到采购方在评估方面的具体判断。
在深入探讨开源与专有问题之前,我们首先需要明确定义何谓AIOps工具。以此为基础,我们再比较两类工具,尝试解释企业应当结合哪些因素在开源与专有AIOps方案之间做出抉择。
作为一个流行词汇,不同的人往往对AIOps有着不同的定义与理解。在本文中,我们将AIOps定义为使用人工智能(AI)或机器学习的一切IT工具或服务。很明显,这是一种相当宽泛的定义方法;也有部分供应商及分析师认为,工具必须要用到复杂的AI与机器学习算法,才有资格被列入AIOps阵营。
但是,随着AIOps市场的迅速发展,我们倒不妨把标准放宽一点。某些工具虽然未被明确划定为AIOps平台,但采购方很可能就是想把它当成AIOps工具来使用。对于这类情况,坚持狭义AIOps定义显然不利于做出确切的判断。
开源AIOps工具
就目前来看,只有少部分开源项目将自身标榜为AIOps。但不少开源平台提供的某些功能完全符合AIOps的理念。例如,使用数据分析(在一定程度上)实现工作流程编排自动化的Kubernetes正是AIOps平台的重要特征。Nagios及Zabbix等开源监控平台也能够提供相当一部分AIOps基本分析功能。此外,各类开源编程语言模块或框架,如PyTorch与TensorFlow也有助于实现AIOps功能,而这些显然不算是完整的AIOps平台。
从各个角度来看,支持开源AIOps工具的观点与支持整个开源生态的思路基本相同 ——与专有替代方案相比,开源AIOps工具往往成本更低、更易于修改或自定义,同时也降低了供应商及平台锁定的风险。
除此之外,评估开源AIOps工具时还应关注一些特殊的注意事项。首先,到目前为止还没有出现任何端到端开源AIOps平台。换句话说,没有哪种单一的开源平台能够直接为企业提供简化IT运营的全部必要AIOps功能。相反,我们需要将多种不同开源工具整合起来,每款工具只能提供一部分AIOps功能。要使用这些开源工具并充分发挥AIOps的优势,IT运营团队需要面对大量工具选项,自然也就得耗费大量精力。
除此之外,AIOps工具在本质上需要访问到大量数据,其中一部分数据可能相当敏感,或者可能被攻击者用于发动入侵乃至破坏。这意味着使用专有的AIOps工具,买方必须信任卖方,允许后者成为在客户系统及环境中提取并分析数据的称职管家。此外,合规性问题也很重要,目前不少法律已经对供应商工具将用户数据移动至自有基础设施内以进行处理或存储的场景做出约束。
如果平台需要借助外部基础设施进行数据处理,那么开源AIOps工具也会受到同样的影响。但大多数开源工具主要运行在用户的自有数据中心内,或者至少是在用户控制的公有云基础设施之上运行,因此带来的合规性或数据隐私问题一般更少。毕竟每个人都可以观察开源工具的源代码,借此确定项目对用户信息的处理方式,借此提升数据管理流程的透明度与可信度。
专有AIOps工具
与开源领域相反,专有软件市场上已经出现了大量被明确标榜为“AIOps”的工具。例如,Broadcom公司就在着力以AIOps产品的名义推销其可观察性软件。Splunk以及Instana与PagerDuty等小型厂商也已经涉足于AIOps。作为一种整体趋势,越来越多专有监控与事件响应工具都在用AIOps强化自己的市场影响力。
选择专有AIOps工具的核心原因,在于其难度往往比开源方案更低。专有工具的用户友好度一般较高,而且与开源选项相比,前者更倾向于提供较为广泛的AIOps功能。此外,相当一部分专有 AIOps工具都以托管服务的形式运行,所以用户不必费神建立起用于托管这些服务的自有基础设施。
但对于部分专有AIOps工具,上述数据管理问题可能会构成新的挑战。因此,一般企业在选择供应商必须认真评估对方的合规性保障与防止数据遭到滥用的能力。好消息是,AIOps领域的大多数供应商都拥有良好的商业声誉,在以合规且安全方式管理客户数据方面也拥有丰富的经验。
开源与专有AIOps的未来
评估AIOps工具的最后一个因素,在于市场的快速发展。尽管截至2021年初,AIOps产品中的开源生态还远远落后于专有软件市场,但随着更多开源开发者及支持者向AIOps领域投入资源,双方的关系与竞争形势有可能发生改变。
当然,专有供应商也会继续增强AIOps功能。如今,大多数商业AIOps工具都集中在监控与事件管理方案层面。但在不久的未来,将有更多专有AIOps工具尝试在日志管理、基础设施配置以及其他IT运营利基领域发挥作用。
总而言之,AIOps工具的评估工作需要充分的耐心与对细节的关注。另外,企业也不应将选择视为一劳永逸的工作——只要出现了更好的选择,大家必须迅速行动、顺应变革。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。