对于运行SAP解决方案的企业来说,他们最关心的一个问题就是尽量缩短SAP应用不可用的时间。在IT界,特别是在SAP领域,“接近零停机时间”可能是一个熟悉的说法,但这种说法经常被嘲笑,认为不可能做到。
此外,SAP主机的维护往往缺乏灵活性。因此,客户经常推迟版本升级,并使用过时的SAP服务器,这种情况很常见。
但是,如果我告诉您,通过在红帽平台上运行您的SAP生态系统,您可以随时完成SAP主机维护活动,无需用户登出系统,也无需取消正在SAP应用中运行的后台作业,您会怎么想?本文将介绍一些可用来保证您的SAP资产处于最新状态,同时避免服务中断的工具。
对停机的担忧会导致无法灵活确定维护窗口
企业需要遵守SAP和操作系统供应商的许多建议,这使得运行这些工作负载的主机保持最新状态变得非常重要。
然而,IT团队经常推迟更新SAP系统,原因是企业无法承受系统宕机的后果。因此,为采取干预措施而商定的维护窗口往往很少,而且时间很短,导致SAP基础、操作系统和基础架构团队很难以正确的方式及时完成干预活动。
另外,维护窗口往往是在非工作时间(至少对生产系统来说如此),这迫使IT团队在维护窗口结束之前,利用空闲时间匆忙地让SAP系统恢复运行,并应用新的更新。
鉴于这些原因,很多SAP服务器客户会在当前版本不再受支持之后才进行(操作系统)版本升级。
所有这些都在告诉我们SAP主机维护是多么缺乏灵活性。
实现接近零停机
您如何规划版本升级,同时消除对停机的担忧?该平台的核心是 Red Hat Enterprise Linux (RHEL) for SAP Solutions订阅。
除操作系统之外,RHEL for SAP Solutions还提供了红帽高可用性附加组件和红帽卫星。它还附带了红帽智能分析,可在潜在问题发生之前检测到问题,并进行修复。这些是我们将要探索的解决方案中使用的一些组件。
协调整个更新过程的其余部分是红帽Ansible自动化平台。它与RHEL for SAP Solutions相集成,为处理SAP工作负载提供了一个完整、强大且易于管理的平台。
这一实施方案可部署在任何地方,无论SAP服务器在本地还是云端(公有、私有或混合)。它也可以与SAP服务器在同一个数据中心,或者在不同地方,如图1所示。
图1. 逻辑设计
图2 Red Hat for SAP Solutions的组件
下面更详细地介绍一下该解决方案的不同组成部分。
红帽卫星
红帽卫星管理SAP主机的生命周期,并确保整个SAP 环境保持一致性,而所有服务器中具有相同级别的补丁、安全修补程序等。
需注意以下方面:
红帽高可用性附加组件
红帽高可用性附加组件使得在数据库和应用端创建集群成为可能。它提供了锁定管理、集群管理、围栏机制(STONITH和SBD),并为ASCS和ERS实例以及SAP支持的所有数据库(即本解决方案中使用的SAP HANA)提供了特定资源。
红帽Ansible自动化平台
红帽Ansible自动化平台是使用Ansible Playbook编排解决方案的组件。Playbook将自动执行整个维护过程(操作系统内核升级、操作系统参数更改、软件包更新、安全修复应用、SAP HANA修订更新、SAP HANA参数更改、SAP内核升级等)。
它也是一个中心点,在这里,所有SAP设施都可以按照“基础架构即代码”方法进行管理,清点企业各部门中不同类型的服务器,并通过基于角色的访问控制 (RBAC) 添加一个非常精细的安全层。
解决方案的实施
如前文所述,所有SAP主机都需要在RHEL上运行,并通过RHEL for SAP Solutions订阅进行注册。它们都与红帽卫星和Ansible自动化平台连接。
图3. 解决方案实施与数据流
该解决方案使用了SAP HANA System Replication的高可用性功能,但由于这项功能并不提供资源的自动故障切换,因此实施了Pacemaker集群,以建立数据库 (DB) 的副本。这样,应用服务器便可以随时连接到SAP HANA DB的运行实例,并且可以在不中断的情况下持续运行。
Ansible自动化平台将编排整个流程,将集群资源切换到未升级节点,并在目标服务器中启动更新任务。
对于单纯与操作系统相关的干预活动,例如操作系统版本升级、安全修复或勘误表应用,红帽卫星将作为主要参与者参与Ansible开展的打补丁活动 – 是触发执行任务的触发器。
对于SAP HANA升级、DB或操作系统参数更改,或者SAP内核更新的情况,将使用为此目的而创建的Ansible Playbook(而不是Satellite)进行干预。
这就是该解决方案的工作原理(我们以SAP Netweaver或SAP S/4HANA为例,采用SAP HANA System Replication进行SAP HANA的垂直扩展实施,并考虑对SAP HANA主机进行维护):
图4. 流程步骤
集群虚拟IP资源(用于将应用连接到数据库)最初指向主SAP HANA节点。Ansible自动化平台在辅助SAP HANA节点上触发Satellite的干预(如果不是由Satellite进行干预,则触发Playbook自行执行干预)。
在对辅助SAP HANA节点完成干预后,Ansible自动化平台将触发集群虚拟IP资源的故障切换,使其指向完成维护的节点。它还将此节点中的SAP HANA DB升级为主节点,并恢复SAP HANA System Replication的方向。借助SAP Netweaver 7.40 SP 5中引入的连接挂起功能(请参阅这个SAP OSS说明),在集群资源故障转移和升级/降级时,用户不会察觉到任何连接中断。
Ansible自动化平台触发对原来的SAP HANA主节点的维护。完成后,我们可以恢复到初始状态,收回资源,或者保持当前状态。
总结
由RHEL for SAP Solutions和Ansible自动化平台组成的针对SAP工作负载的红帽平台,可将SAP主机干预对应用可用性的影响降至最低水平。
总而言之,用于SAP的红帽平台可自动执行资源的故障切换以及升级或修补过程。这最大限度减少了手动干预,有助于消除人为错误,并确保维护工作顺利且成功完成。
该解决方案可使SAP设施始终保持最新状态,并遵循SAP和红帽的建议,这有助于IT团队赢得业务部门的信任,从而使得对干预措施达成一致不再是一件难事。
欲了解RHEL for SAP Solutions订阅的更多信息,请阅读用于SAP工作负载的红帽开源解决方案的业务价值。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面