随着企业逐步加速数字化转型步伐以及IT技术的快速发展,其IT系统的运维复杂度也在日益增加。
尤其在金融领域,由于其对IT系统服务的要求极为苛刻,可以说是 7*24 持续不间断、接近于“零”宕机的要求,因此一直走在IT技术趋势发展的第一梯队。而近年来,业务的持续创新带来了支撑软件的不断变化和迭代。
智能运维元年已来
一方面,创新业务要求金融机构能够快速响应市场需求,使得IT运维面临着交付效率、运维质量等方面的多重压力;另一方面,在双模IT建设中,要保证业务系统稳定性、故障定位和根因调查,对IT运维的人员的技术水平也提出了极大挑战,传统的人工操作已经难以再满足当下的运维工作量
为此,智能时代所带来的DevOps、AIOps(智能运维)等方法及技术,正在通过自动化替代传统的工作方式,成为企业安全高效地进行运维和管理工作的重要工具。如今,它们就像企业的“手”一样,正在提升企业IT运维的生产力和生产效率。
在IBM看来,过去被动式的运维手段已经发展到瓶颈阶段,加上如今人工智能等技术的发展,智能运维元年已经到来。
智能运维的理想状态是基于大数据,把监控、管理和故障定位三大部分的运维工作,利用机器学习方法有机结合起来。这意味着,没有任何一个软件能够独立进行运作,需要将监控系统、智能分析系统、流程管理系统等软件进行整合,在大数据平台之上,通过统一的架构实现智能化运维。
与此同时,金融行业自身的独特性决定了其IT系统加倍的复杂度,因此需要更专业的经验,更复杂的流程,和更丰富的算法做支撑。
而为了推进智能运维在金融机构及企业的落地,IBM结合30多年的运维经验,集合最高端的产、学、研能力,在不久前发布了业界首部《金融行业AIOps智能运维白皮书》(以下简称“白皮书”)。
此白皮书引入了人工智能技术和运维专家的深度合作,由清华大学智能运维Netman实验室、一线银行数据中心专家,详细介绍了金融企业智能运维可落地的场景定义、成熟度模型、参考架构、落地解决方案等,并对客户及经典案例进行了分享与客观剖析。
智能运维落地的三大主张
具体地,白皮书通过对7*24人机超融合运维新方式对研究,总结了企业运用人工智能对业务状况进行“故障预警”、“故障自愈”的实践方法和经验,对智能运维系统的建设和落地提出了三大主张:
白皮书将AIOps 的实施分为十个阶段,认为金融业用户在考虑智能运维建设方向时,应根据自身情况,分阶段实施、循序渐进。
白皮书中指出,目前大部分金融行业客户都已经进入了阶段一,即基本都已经建立了较完善的运维监控系统,收集了比较全面的运维指标数据;基于此,在云和大数据等技术赋能下,各企业内部的大数据平台也都趋于建设完善,开始迈入阶段二。
而从阶段三至阶段十,大部分金融机构需要考虑的则是下一步的实施路径图,通过从最底层基本数据/平台开始考虑,逐步构建金融级智能化运维平台及金融类业务场景,实现数据中心全覆盖,最终建立企业自有人工智能算法模型,将运维系统建设成为企业数据中心运维大脑,实现智能洞察、智能定位、智能分析。
白皮书认为,搭建一个AI 平台是未来运维的核心。
与传统运维凭借经验给系统调参、优化不同,基于AI的智能运维平台,能够通过自主学习,分析和总结系统运维过程中的各种状况和规律,并针对不同应用场景建立模型;随后,让该平台去了解其IT系统运行规律;最后,AI平台会根据总结出来的规律监控企业的IT环境。当机器掌握所有趋势或规律之后,不仅可以快速找出问题出现的原因,还可以提前预测,对可能出现的问题进行防备。
以某全国性大型银行为例,其在 2016 年启动了 IBM 智能运维平台项目,每日处理数据增量达TB级,覆盖个人网银、手机银行等重要业务系统,初步建立了数据中心的“运维大脑”。借此,该银行不仅为各种应用提供了安全防护,还实现了对针对性能指标异常波动的提前预警和主动运维,快速定位系统的故障根源,为故障恢复争取了时间。
白皮书指出,未来的IT运维需要既懂业务场景语言,又懂平台和技术,能够把业务场景翻译成新型的AI语言,然后把咨询与交付一体化完成。 这些过程都需要专家团队的参与和配合。
而在过去30多年里,IBM专家团队在帮助金融客户爆发式成长过程中,积累大量运维实战经验,能够复杂的运维经验转化为抽象的AI语言,即把运维知识沉淀总结为AI平台可以接受的标签数据,再通过AI平台正向反馈和转化专家知识在运维工作的价值,实现人机超融合的运维新方式。
智能运维最终的体现形式是人机超融合
IBM大中华区全球信息科技服务部,技术服务产品管理部总经理孙建钢总结说:“尽管智能运维会带来颠覆性的运维思维和效应,但并非取代现有系统,而是赋予现有系统智能。“
“IBM作为权威的 IT 运维专家,与中国金融行业相伴成长超过30年,对传统金融行业的复杂且异构基础架构有着深刻的理解,并长期服务于金融行业运维一线。我们认为智能运维最终的体现形式是人机超融合,进而实现企业永续。IBM 愿与中国企业同创,迎接IT智能化运维新时代。”
好文章,需要你的鼓励
生成式人工智能工具正在取代一些传统上由初级员工负责的任务。这并不意味着这些工作会消失,某大型科技公司的首席人力资源官Nickle LaMoreaux在南方西南(SXSW)大会上表示。她指出,企业需要重新思考初级职位的定义,并寻找机器无法替代的员工素质。
近期,太空数据中心概念引发热议。虽然目前规模有限,但已有多个项目展示了地球大气层外的可行性。这些项目包括Red Hat与Axiom Space合作的国际空间站数据中心单元,以及Lonestar Data Holdings的月球数据中心。尽管面临诸多挑战,太空数据中心有望提高可持续性,并为灾难恢复等应用开辟新途径。
Google 发布新一代轻量级开源大语言模型 Gemma 3,提供多种参数规模选择,可在单个 GPU 上运行。该模型基于 Gemini 技术,性能优异,具备多模态能力和大上下文窗口。同时推出 ShieldGemma 2 用于图像安全检查,为开发者提供更多 AI 应用开发选择。
东芝在德国杜塞尔多夫开设硬盘创新实验室,旨在为欧洲和中东客户提供大容量存储评估服务。实验室将重点研究机械硬盘在RAID、扩展存储系统等领域的应用,以满足企业、数据中心和云计算的需求。东芝表示,尽管固态硬盘速度更快,但机械硬盘在大容量存储方面仍具有成本和产能优势,能够满足日益增长的数据存储需求。