对于运行SAP解决方案的企业来说,他们最关心的一个问题就是尽量缩短SAP应用不可用的时间。在IT界,特别是在SAP领域,“接近零停机时间”可能是一个熟悉的说法,但这种说法经常被嘲笑,认为不可能做到。
此外,SAP主机的维护往往缺乏灵活性。因此,客户经常推迟版本升级,并使用过时的SAP服务器,这种情况很常见。
但是,如果我告诉您,通过在红帽平台上运行您的SAP生态系统,您可以随时完成SAP主机维护活动,无需用户登出系统,也无需取消正在SAP应用中运行的后台作业,您会怎么想?本文将介绍一些可用来保证您的SAP资产处于最新状态,同时避免服务中断的工具。
对停机的担忧会导致无法灵活确定维护窗口
企业需要遵守SAP和操作系统供应商的许多建议,这使得运行这些工作负载的主机保持最新状态变得非常重要。
然而,IT团队经常推迟更新SAP系统,原因是企业无法承受系统宕机的后果。因此,为采取干预措施而商定的维护窗口往往很少,而且时间很短,导致SAP基础、操作系统和基础架构团队很难以正确的方式及时完成干预活动。
另外,维护窗口往往是在非工作时间(至少对生产系统来说如此),这迫使IT团队在维护窗口结束之前,利用空闲时间匆忙地让SAP系统恢复运行,并应用新的更新。
鉴于这些原因,很多SAP服务器客户会在当前版本不再受支持之后才进行(操作系统)版本升级。
所有这些都在告诉我们SAP主机维护是多么缺乏灵活性。
实现接近零停机
您如何规划版本升级,同时消除对停机的担忧?该平台的核心是 Red Hat Enterprise Linux (RHEL) for SAP Solutions订阅。
除操作系统之外,RHEL for SAP Solutions还提供了红帽高可用性附加组件和红帽卫星。它还附带了红帽智能分析,可在潜在问题发生之前检测到问题,并进行修复。这些是我们将要探索的解决方案中使用的一些组件。
协调整个更新过程的其余部分是红帽Ansible自动化平台。它与RHEL for SAP Solutions相集成,为处理SAP工作负载提供了一个完整、强大且易于管理的平台。
这一实施方案可部署在任何地方,无论SAP服务器在本地还是云端(公有、私有或混合)。它也可以与SAP服务器在同一个数据中心,或者在不同地方,如图1所示。
图1. 逻辑设计
图2 Red Hat for SAP Solutions的组件
下面更详细地介绍一下该解决方案的不同组成部分。
红帽卫星
红帽卫星管理SAP主机的生命周期,并确保整个SAP 环境保持一致性,而所有服务器中具有相同级别的补丁、安全修补程序等。
需注意以下方面:
红帽高可用性附加组件
红帽高可用性附加组件使得在数据库和应用端创建集群成为可能。它提供了锁定管理、集群管理、围栏机制(STONITH和SBD),并为ASCS和ERS实例以及SAP支持的所有数据库(即本解决方案中使用的SAP HANA)提供了特定资源。
红帽Ansible自动化平台
红帽Ansible自动化平台是使用Ansible Playbook编排解决方案的组件。Playbook将自动执行整个维护过程(操作系统内核升级、操作系统参数更改、软件包更新、安全修复应用、SAP HANA修订更新、SAP HANA参数更改、SAP内核升级等)。
它也是一个中心点,在这里,所有SAP设施都可以按照“基础架构即代码”方法进行管理,清点企业各部门中不同类型的服务器,并通过基于角色的访问控制 (RBAC) 添加一个非常精细的安全层。
解决方案的实施
如前文所述,所有SAP主机都需要在RHEL上运行,并通过RHEL for SAP Solutions订阅进行注册。它们都与红帽卫星和Ansible自动化平台连接。
图3. 解决方案实施与数据流
该解决方案使用了SAP HANA System Replication的高可用性功能,但由于这项功能并不提供资源的自动故障切换,因此实施了Pacemaker集群,以建立数据库 (DB) 的副本。这样,应用服务器便可以随时连接到SAP HANA DB的运行实例,并且可以在不中断的情况下持续运行。
Ansible自动化平台将编排整个流程,将集群资源切换到未升级节点,并在目标服务器中启动更新任务。
对于单纯与操作系统相关的干预活动,例如操作系统版本升级、安全修复或勘误表应用,红帽卫星将作为主要参与者参与Ansible开展的打补丁活动 – 是触发执行任务的触发器。
对于SAP HANA升级、DB或操作系统参数更改,或者SAP内核更新的情况,将使用为此目的而创建的Ansible Playbook(而不是Satellite)进行干预。
这就是该解决方案的工作原理(我们以SAP Netweaver或SAP S/4HANA为例,采用SAP HANA System Replication进行SAP HANA的垂直扩展实施,并考虑对SAP HANA主机进行维护):
图4. 流程步骤
集群虚拟IP资源(用于将应用连接到数据库)最初指向主SAP HANA节点。Ansible自动化平台在辅助SAP HANA节点上触发Satellite的干预(如果不是由Satellite进行干预,则触发Playbook自行执行干预)。
在对辅助SAP HANA节点完成干预后,Ansible自动化平台将触发集群虚拟IP资源的故障切换,使其指向完成维护的节点。它还将此节点中的SAP HANA DB升级为主节点,并恢复SAP HANA System Replication的方向。借助SAP Netweaver 7.40 SP 5中引入的连接挂起功能(请参阅这个SAP OSS说明),在集群资源故障转移和升级/降级时,用户不会察觉到任何连接中断。
Ansible自动化平台触发对原来的SAP HANA主节点的维护。完成后,我们可以恢复到初始状态,收回资源,或者保持当前状态。
总结
由RHEL for SAP Solutions和Ansible自动化平台组成的针对SAP工作负载的红帽平台,可将SAP主机干预对应用可用性的影响降至最低水平。
总而言之,用于SAP的红帽平台可自动执行资源的故障切换以及升级或修补过程。这最大限度减少了手动干预,有助于消除人为错误,并确保维护工作顺利且成功完成。
该解决方案可使SAP设施始终保持最新状态,并遵循SAP和红帽的建议,这有助于IT团队赢得业务部门的信任,从而使得对干预措施达成一致不再是一件难事。
欲了解RHEL for SAP Solutions订阅的更多信息,请阅读用于SAP工作负载的红帽开源解决方案的业务价值。
好文章,需要你的鼓励
前谷歌资深工程师David Petrou创立的AI初创公司Continua宣布完成800万美元种子轮融资,由GV领投。该公司开发AI智能体技术,可加入SMS、iMessage和Discord等群聊平台,为用户协作提供智能支持。Continua能够在群聊中自动设置提醒、发起投票、添加日历邀请或生成待办清单,解决群聊混乱问题。公司通过微调技术让AI理解群聊动态,具备社交智能,只在需要时提供帮助。
艾伦人工智能研究院开发的MolmoAct是首个开源的机器人空间推理模型,通过"看懂-规划-执行"三步思考法让机器人具备类人的空间理解能力。它不仅在多项基准测试中表现优异,还支持直观的视觉轨迹调教,用户可直接在屏幕上画线指导机器人行为。研究团队完全开源了模型、代码和数据集,为全球机器人研究提供强大基础平台。
Anthropic宣布为企业客户增加Claude单次提示词的信息处理量,以吸引更多开发者使用其AI编程模型。Claude Sonnet 4现支持100万token上下文窗口,可处理75万词或7.5万行代码的请求,是此前限制的5倍,超过OpenAI GPT-5的40万token。该功能也将通过Amazon Bedrock和Google Cloud等云合作伙伴提供。更大的上下文窗口有助于AI模型更好地处理软件工程问题和长期自主编程任务。
这项由北京大学和清华大学联合完成的研究首次提出时间自奖励语言模型,通过"锚定拒绝"和"未来引导选择"策略解决了AI自学习中的梯度消失问题。该方法让AI既能从过去的低水平样本中学习反面教材,又能向未来的高水平样本学习正面目标,成功维持了清晰的学习对比信号,在多个基准测试中显著优于传统自奖励方法。