ZDNet至顶网软件频道消息: IBM Platform LSF(Load Sharing Facility)产品系列是强大的工作负载管理平台,用于要求苛刻的分布式关键业务型HPC环境。
IBM Platform LSF附加产品
IBM Platform LSF拥有一系列可选附加组件,旨在帮助其实现工作负载管理、进而提升用户生产效率。
1.IBM Platform Application Center
IBM Platform Application Center提供一套可自定制化Web界面,帮助用户管理作业并分析集群资源利用状况。它还提供一套易用性出色的使用界面,能够在无需编程的前提下实现作业提交。用户可以查看作业状态及作业结果,对作业进行操作(例如挂起或恢复),并对作业输入、输出及错误文件实现可视化。
IBM Platform Application Center Jobs标签
IBM Platform Application Center还提供一套信息仪表板,其中包含大量细节信息——例如集群健康状况以及集群性能统计结果,还包括每台主机的资源使用情况报告。大家可以创建一套机架配置方案以代表当前环境,并通过rackconfig命令将设备分配至合适的机架。
最大支持能力:IBM Platform Application Center能够支持的最大机架尺寸为42U(不可配置)。
IBM Platform Application Center仪表板
该软件提供多种最为常用的应用程序模板,能够通过定制及发布实现解决方案的快速创建。除此之外,用户还可以针对具体需求创建属于自己的模板,从而使作业提交更简便、更快速、错误率更低。
该产品提供一系列内置集群分析报告功能。这些报告涵盖集群改进过程中所涉及的各种常见类型。用户也可以通过Web界面创建自定义报告以满足特定需求。
IBM Platform Application Center报告标签
IBM Platform Application Center还可以与IBM Platform License Scheduler(简称LS)与IBM Platform Process Manager(简称PPM)相集成。这种集成化方案能够帮助用户以可视化方式掌握整个集群的许可使用情况。大家可以通过一套Web界面对作业流程执行以及触发流程进行监控;也就是说,大家能够以集中化方式控制LSF集群的全局状态。
IBM Platform Application Center帮助文件
2.IBM Platform RTM
随着集群规模及工作负载的不断增长,集群管理员需要更为强大的工具以完成集群管理及监控任务,从而确定有可能对性能产生负面影响的各类问题。此外,管理员们还需要一款能够追踪集群各方面状态、同时又无需通过多种来源进行集群信息收集的工具。
IBM Platform RTM通过为IBM Platform LSF环境提供一套综合性工作负载监控、报告以及管理工具以解决上述问题:
- 提供指向集群内工作负载与主机具体信息的访问途径;
- 允许用户创建警告及多种图形类型;
- 为服务器日志可视化提供一套界面,允许用户通过GUI执行常见管理任务(例如重启LSF集群进程并对作业进行操作)——全部工作都通过同一套集中式Web界面实现;
- 提供对多个集群进行监控的能力,从而帮助用户轻松对多种环境的管理并收集全局集群使用情况指标。
备注: IBM Platform RTM利用Cacti作为功能丰富的图形化用户界面框架,旨在为用户提供面向特定LSF环境的监控、报告以及提示功能。Cacti是一套完全基于RRDTool的图形解决方案,由Cacti Group负责开发。LSF功能当中还包括Cacti插入机制,因此大家可以将二者协同运用。IBM Platform RTM除了提供特定LSF监控及报告功能之外,还包含开源Cacti工具包所具备的各类功能。如果大家熟悉Cacti,那么对IBM Platform RTM GUI也一定不会感到陌生。
IBM Platform RTM当中的报告机制与IBM Platform Application Center有所不同,区别在于前者会提供关于集群各个方面的细节信息。在IBM Platform RTM报告当中,用户可以深入掌握集群资源的使用情况以及工作负载流程。最显著的实例就是与作业相关的交付信息。在IBM Platform RTM当中,大家可以对作业提交信息进行可视化处理。在IBM Platform RTM中,大家能够查看关于作业执行环境、作业状态历史记录、作业图以及主机曲线图等各类信息,从而直观了解作业的整个执行流程。而在IBM Platform Application Center当中,我们只能获得一小部分此类信息。
IBM Platform RTM作业细节信息标签
IBM Platform RTM能够帮助集群管理员处理以下任务:
- 确定问题
- 监控整个集群
- 通过识别闲置资源并消除瓶颈以实现性能优化
- 强化用户生产效率并改进服务水平
- 规划能力
- 降低成本
重要提示:IBM Platform RTM 8.3尚不支持IBM通用并行文件系统(简称GPFS)监控。
3.IBM Platform Process Manager
IBM Platform Process Manager是一款工作负载管理工具,用于帮助用户创建并管理流程定义,从而实现UNIX及Windows环境下的业务流程自动化目标。所谓“流程定义”,其中包含作业、作业组、子流程及其彼此间的关系(反映工作项目及其相互依赖性)。除了创建作业流程定义之外,用户还可以利用IBM Platform Manager进行作业调度。该工具由以下几部分组成:
–Process Manager Designer
• Flow Editor
• Calendar Editor
–Flow Manager
大家可以利用故障转移主机为Process Manager Server提供冗余机制。正如图4-10中的IBM Platform Process Manager组件所示。
IBM Platform Process Manager组件
用户可以在Process Manager Client当中创建作业流程定义,而后将其提交至Process Manager Server当中。Process Manager Server在流程当中管理作业依赖性并控制指向IBM Platform LSF主节点主机的提交操作。IBM Platform LSF主节点主机负责提供资源管理及负载平衡机制、运行作业并将作业状态返回至Process Manager Server。用户可以通过IBM Platform Process Manager监控作业流程状态,如下图所示。
IBM Platform Process Manager数据流
在Flow Editor当中,用户可以轻松实现对作业流程的图形化定义。在Flow Editor的帮助下,大家可以创建作业及其相互关系,并勾勒它们基于文件或者时间的依赖性。
大家可以参阅下图所示的简单作业流程定义实例。
IBM Platform Process Manager流程定义
在Flow Editor当中,大家还可以基于预定义应用程序模板进行作业创建。IBM Platform Process Manager提供扩展功能,允许用户在无需进行大量编程的前提下向LSF环境之外的应用程序提交工作内容。大家也可以通过XML格式创建自己的应用程序模板,创建结果能够被转化为简单的用户界面、通过对作业进行可视化配置的方式促进作业提交。
该软件为用户提供多种模板。其中zOS_Template.xml模板位于安装目录的JS_HOME/8.3/examples子目录之下。在被移动到JS_HOME/work/templates目录之下时,其就会以界面的形式为用户服务,详见下图。
IBM Platform Process Manager应用程序定义
在Calendar Editor(同样由Platform Process Manager提供)的帮助下,用户能够轻松进行日程计划定义。这些日程计划能够交由Process Manager使用,从而计算出哪些作业或者流程需要在哪些具体日期加以运行。此后,用户则能够利用Flow Manager查看并控制这些运行当中的流程,并在流程结束后获得历史信息记录。
4.IBM Platform License Scheduler
IBM Platform License Scheduler负责控制组织内部所共享的软件许可。它的作用在于帮助企业轻松实现更具灵活性的分层式许可共享策略。这些策略能够准确反映业务需求、带来理想的利用效率并贯彻企业的整个生产过程。
IBM Platform License Scheduler与FlexNet产品协同运作,共同控制并监督许可使用情况。它能够与其它多台负责向不同集群提供许可的许可服务器相对接,如下图所示。
IBM Platform License Scheduler许可分配
IBM Platform License Scheduler管理许可令牌的调度工作,但它实际上也充当着负责提供许可的许可服务器。应用程序会不断从许可服务器处重新获取许可,而且这一过程并不涉及许可调度。IBM Platform License Scheduler与LSF集群中的作业进行交互。
当作业需要许可以运行应用程序时,这套许可调度方案会提前为其提供令牌、从而支持应用程序的实际运行。LSF当中的可用令牌数量与FlexNet所提供的数量保持一致。处于运行状态的作业所使用的许可数量永远不能超过可用许可数量。下图所示为IBM Platform LSF如何在提交作业时与IBM Platform License Scheduler进行交互。
IBM Platform License Scheduler作业提交
许可令牌会根据由用户定义的一系列许可调度策略交付给作业。不过这些策略并不影响作业调度机制的优先级。作业仍然会依据IBM Platform LSF集群当中所定义的策略进行分配——也就是说,LSF策略的优先级高于许可调度策略。
操作模式
IBM Platform License Scheduler支持两种操作模式:
- 集群模式(下图)专注于最大限度提升许可利用率(这种模式在IBM Platform License Scheduler 8.0中刚刚出现)。用户可以对单一集群的许可储备及共享策略进行配置,而不必再涉及其它集群。每个集群也都会出现作业(以及许可)的抢占情况。
IBM Platform License Scheduler集群模式
在集群模式下,许可令牌会在对应作业结束之后由LSF回收并重新使用(对于短期作业来说,这种方式能够带来更主的许可利用效率)。而在项目模式下,IBM Platform License Scheduler会在实际分配许可令牌之前检查各LSF集群上许可持有者的需求。这种对全部集群上全部项目进行信息收集与评估的方式会拖慢各个调度周期。
-项目模式(下图)关注许可持有者所使用的许可。项目可以跨越多个集群存在。
IBM Platform License Scheduler项目模式
分配策略
在IBM Platform License Scheduler当中,大家可以对不同项目或者集群之间的许可令牌共享策略进行配置。具体分配策略根据所采取的操作模式而有所不同:
-集群模式:
-静态分配策略:将一部分许可分配给集群,而且许可数量永远不会改变。
-动态分配策略:将一部分许可分配给集群,但许可数量能够根据集群的实际需求作出改变。具体数量由预先定义的缓冲方案决定。
项目模式:用户可以在集群模式下通过配置同时采取两种分配策略。具体信息请参阅第48页的“服务水平协议(简称SLA)保障调度”。
–公平共享分配策略:将一部分许可分配给每一个项目,但根据实际需求决定所使用的许可数量。如果需求超出了可用许可数量,也仍然只能使用可用范围内的许可。不存在抢占机制。如果需要对许可进行重新分配,作业会停止运行、直到许可重新分配过程结束。
–持有与抢占分配策略:将全部共享许可分配给每一个许可项目。所持有的共享许可也将得到分配。未使用的许可会被共享给任意需求。不过当实际需求超出可用许可数量时,持有共享会以抢占的方式得到回收。
–主动持有分配策略:主动持有允许持有方自动根据项目活动情况作出判断。活动项目所占用的持有许可以百分比形式表现。每个项目实际持有的许可数量会根据项目本身的活动情况发生改变,用户能够将持有百分比调整至100%以上以支持活动持有者的作业流程。
–非共享许可分布策略:一部分许可被指定为非共享类型。
在未被使用时,这部分许可会处于保留状态而不会归入共享范畴。
服务水平协议(简称SLA)保障调度
SLA保障调度机制允许站点保障作业组运行过程中所必需的资源供应。作业可以根据用户、公平共享组、项目、许可项目、队列、应用程序配置文件或者以上几种分类方式的其它组合进行分组。许可资源保障机制只能在IBM Platform License Scheduler处于集群模式下时才能正常起效。SLA保障调度的配置流程在IBM Platform LSF当中实现。
是否需要采用SLA保障调度机制取决于服务类以及资源池的配置情况。服务类允许作业访问受保障资源。作业可以在提交时明确被附加在某个服务类上,例如“bsub –sla服务类名称”。或者,作业也可以在特定条件下被自动附加到服务类当中。举例来说,如果某项作业由服务类定义,则在提交至特定项目时该作业将自动被附加至对应SLA。
用户可以对服务类进行配置,从而限制被附加到对应SLA中的作业——例如从属于项目1的作业。服务类所使用的资源来自资源池。
资源池为服务类中的作业提供最低资源保障。当用户对资源池进行配置时,用户在资源池内定义的共享资源会被分配给每一个经过定义的服务类。资源池能够为任意类型的资源提供保障机制(如下图)。
IBM Platform License Scheduler保障资源池
服务类能够利用来自不同资源池的资源,而资源池可以向不同服务类分配资源。图4-19所示为服务类SLA1使用来自资源池Guarantee Pool 1与Guarantee Pool 2的资源。Guarantee Pool 1资源池保证附加至SLA 1的作业能够使用50个插槽。而Guarantee Pool 2资源池则保证附加至SLA 1的作业能够使用50套许可。
IBM Platform License Scheduler示例
除了对服务类的共享资源进行配置之外,大家也能够以可选方式对未被使用的许可进行出借策略配置。出借机制可能被限制为只面向短期作业。大家还可以限制出借策略,从而确保保障性资源处于负载挂起状态。
更多内容,请点击专区查看:IBM Platform Computing驱动企业智慧成长
好文章,需要你的鼓励
随着AI的使用、创新和监管混乱超过认可的标准,IT领导者只能开发内部方法来减轻AI风险,依靠框架、工具和他们的同事来正确使用AI。
几年前,当澳大利亚红十字会(Australian Red Cross)这个社区服务慈善机构开始进行数字化转型的时候,发现有很多不同的系统无法协同工作。如今,经过数据梳理和发挥作用,可以满足不断变化的需求。
在此次活动中,IBM展示了最先进的IBM Quantum Heron计算机是如何以比以前更高的精度和速度执行复杂的量子算法,同时为进行高级分子模拟的新方法铺平了道路。
想象一下,一个人工智能系统不仅能阅读文本或识别图像,还能够同时读、写、看、听和创造。这其实就是多模态人工智能的精髓。这些先进的多模态人工智能系统可以同时处理和整合多种形式的数据,包括文本、图像、音频甚至视频。这就像是赋予了人工智能一整套的感官。