对于运行SAP解决方案的企业来说,他们最关心的一个问题就是尽量缩短SAP应用不可用的时间。在IT界,特别是在SAP领域,“接近零停机时间”可能是一个熟悉的说法,但这种说法经常被嘲笑,认为不可能做到。
此外,SAP主机的维护往往缺乏灵活性。因此,客户经常推迟版本升级,并使用过时的SAP服务器,这种情况很常见。
但是,如果我告诉您,通过在红帽平台上运行您的SAP生态系统,您可以随时完成SAP主机维护活动,无需用户登出系统,也无需取消正在SAP应用中运行的后台作业,您会怎么想?本文将介绍一些可用来保证您的SAP资产处于最新状态,同时避免服务中断的工具。
对停机的担忧会导致无法灵活确定维护窗口
企业需要遵守SAP和操作系统供应商的许多建议,这使得运行这些工作负载的主机保持最新状态变得非常重要。
然而,IT团队经常推迟更新SAP系统,原因是企业无法承受系统宕机的后果。因此,为采取干预措施而商定的维护窗口往往很少,而且时间很短,导致SAP基础、操作系统和基础架构团队很难以正确的方式及时完成干预活动。
另外,维护窗口往往是在非工作时间(至少对生产系统来说如此),这迫使IT团队在维护窗口结束之前,利用空闲时间匆忙地让SAP系统恢复运行,并应用新的更新。
鉴于这些原因,很多SAP服务器客户会在当前版本不再受支持之后才进行(操作系统)版本升级。
所有这些都在告诉我们SAP主机维护是多么缺乏灵活性。
实现接近零停机
您如何规划版本升级,同时消除对停机的担忧?该平台的核心是 Red Hat Enterprise Linux (RHEL) for SAP Solutions订阅。
除操作系统之外,RHEL for SAP Solutions还提供了红帽高可用性附加组件和红帽卫星。它还附带了红帽智能分析,可在潜在问题发生之前检测到问题,并进行修复。这些是我们将要探索的解决方案中使用的一些组件。
协调整个更新过程的其余部分是红帽Ansible自动化平台。它与RHEL for SAP Solutions相集成,为处理SAP工作负载提供了一个完整、强大且易于管理的平台。
这一实施方案可部署在任何地方,无论SAP服务器在本地还是云端(公有、私有或混合)。它也可以与SAP服务器在同一个数据中心,或者在不同地方,如图1所示。
图1. 逻辑设计
图2 Red Hat for SAP Solutions的组件
下面更详细地介绍一下该解决方案的不同组成部分。
红帽卫星
红帽卫星管理SAP主机的生命周期,并确保整个SAP 环境保持一致性,而所有服务器中具有相同级别的补丁、安全修补程序等。
需注意以下方面:
红帽高可用性附加组件
红帽高可用性附加组件使得在数据库和应用端创建集群成为可能。它提供了锁定管理、集群管理、围栏机制(STONITH和SBD),并为ASCS和ERS实例以及SAP支持的所有数据库(即本解决方案中使用的SAP HANA)提供了特定资源。
红帽Ansible自动化平台
红帽Ansible自动化平台是使用Ansible Playbook编排解决方案的组件。Playbook将自动执行整个维护过程(操作系统内核升级、操作系统参数更改、软件包更新、安全修复应用、SAP HANA修订更新、SAP HANA参数更改、SAP内核升级等)。
它也是一个中心点,在这里,所有SAP设施都可以按照“基础架构即代码”方法进行管理,清点企业各部门中不同类型的服务器,并通过基于角色的访问控制 (RBAC) 添加一个非常精细的安全层。
解决方案的实施
如前文所述,所有SAP主机都需要在RHEL上运行,并通过RHEL for SAP Solutions订阅进行注册。它们都与红帽卫星和Ansible自动化平台连接。
图3. 解决方案实施与数据流
该解决方案使用了SAP HANA System Replication的高可用性功能,但由于这项功能并不提供资源的自动故障切换,因此实施了Pacemaker集群,以建立数据库 (DB) 的副本。这样,应用服务器便可以随时连接到SAP HANA DB的运行实例,并且可以在不中断的情况下持续运行。
Ansible自动化平台将编排整个流程,将集群资源切换到未升级节点,并在目标服务器中启动更新任务。
对于单纯与操作系统相关的干预活动,例如操作系统版本升级、安全修复或勘误表应用,红帽卫星将作为主要参与者参与Ansible开展的打补丁活动 – 是触发执行任务的触发器。
对于SAP HANA升级、DB或操作系统参数更改,或者SAP内核更新的情况,将使用为此目的而创建的Ansible Playbook(而不是Satellite)进行干预。
这就是该解决方案的工作原理(我们以SAP Netweaver或SAP S/4HANA为例,采用SAP HANA System Replication进行SAP HANA的垂直扩展实施,并考虑对SAP HANA主机进行维护):
图4. 流程步骤
集群虚拟IP资源(用于将应用连接到数据库)最初指向主SAP HANA节点。Ansible自动化平台在辅助SAP HANA节点上触发Satellite的干预(如果不是由Satellite进行干预,则触发Playbook自行执行干预)。
在对辅助SAP HANA节点完成干预后,Ansible自动化平台将触发集群虚拟IP资源的故障切换,使其指向完成维护的节点。它还将此节点中的SAP HANA DB升级为主节点,并恢复SAP HANA System Replication的方向。借助SAP Netweaver 7.40 SP 5中引入的连接挂起功能(请参阅这个SAP OSS说明),在集群资源故障转移和升级/降级时,用户不会察觉到任何连接中断。
Ansible自动化平台触发对原来的SAP HANA主节点的维护。完成后,我们可以恢复到初始状态,收回资源,或者保持当前状态。
总结
由RHEL for SAP Solutions和Ansible自动化平台组成的针对SAP工作负载的红帽平台,可将SAP主机干预对应用可用性的影响降至最低水平。
总而言之,用于SAP的红帽平台可自动执行资源的故障切换以及升级或修补过程。这最大限度减少了手动干预,有助于消除人为错误,并确保维护工作顺利且成功完成。
该解决方案可使SAP设施始终保持最新状态,并遵循SAP和红帽的建议,这有助于IT团队赢得业务部门的信任,从而使得对干预措施达成一致不再是一件难事。
欲了解RHEL for SAP Solutions订阅的更多信息,请阅读用于SAP工作负载的红帽开源解决方案的业务价值。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。