ZDNet至顶网软件频道消息:IBM Platform Computing提供了一系列工作负载管理能力以优化运行各种采用高性能计算集群的应用,并通过多样化工作负载、业务优先级以及应用资源需求确保较高的资源使用率。工作负载管理有效地利用计算资源来尽可能快速地完成工作负载。为了实现有效的工作负载分配,这里需要一个智能的调度策略。智能的调度策略是基于对共享计算资源、应用优先级以及用户策略的了解。提供最佳服务等级协议管理,并通过提供更大的灵活性、可见性以及对作业调度的控制,来帮助降低运营成本和基础设施成本,这是投资回报最大化所需要的。
IBM平台负载共享设施
IBM Platform LSF(负载共享设施)是一个功能强大的工作负载管理平台,面向要求苛刻的、分布式和关键任务的高性能计算环境。IBM Platform LSF管理批量和高度并行的工作负载。它提供了灵活的以策略为驱动的调度功能,这确保了共享计算资源自动分配给用户、群组以及作业,与你的服务等级协议保持一致,从而改善资源使用情况和用户生产效率。
高级调度功能使得Platform LSF适用于以高利用率运行,从而降低运营成本。很多功能结合到一起缩短用户的等待时间,提供更好的服务等级,这样知识型工作者就可以获得更高的工作效率,从而产生更快速、更高质量的工作结果。它强大的管理功能使得一小群管理员可以更轻松地进行管理,提高效率并释放有价值的员工投入到其他项目中。例如,你可以委派控制一个特定的用户社区到一个特定的项目或者给某个部门经理。你还可以重新配置集群给一个群组,而不会导致其他所有群组的停机时间,使用一种受益于通过GPU的新型应用。所有这些功能都将转化为灵活性。
Platform LSF功能的可扩展性可以满足您不断变化的需求,Platform LSF是可以在多个维度上进行扩展的。它可以扩展到数十万的节点和数百万的作业。它还可以在其他维度进行扩展:例如,在它所支持的资源广度方面。无论你是管理Windows、Linux、GPU工作负载还是浮动应用许可,Platform LSF都可以对跨多个数据中心和地域的大量用户和资源进行灵活控制。它还可以扩展支持不同类型的工作负载,或者数百万以毫秒计算的短时作业。Platform LSF具有调度功能以满足这些多样化的需求,处理大规模工作负载。Platform LSF在解决各种调度问题的能力上是独一无二的,它能够在一个集群上同时激活多重策略。
Platform LSF的智能调度策略包括以下特性:
以下版本提供了Platform LSF,以确保用户拥有合适的功能集以满足他们的需求:
Platform LSF的性能取决于许多因素,包括集群中节点的数量、并行运行作业的数量、等待作业的数量、用户作业查询的数量以及查询的频率。随着这些任务的增加,调度周期和用户响应时间也会随之增加。对于高吞吐量工作负载来说,整体系统性能取决于处理能力、I/O容量以及调度节点的内存。以下表格提供了基于测试集群配置的衡量指南。对于大型集群来说,建议用户寻求IBM的集群调优服务和帮助。
Platform LSF可扩展性和吞吐量
Platform LSF的异构性概念是很重要的,因为很少有组织机构只在唯一的硬件平台上运行一个操作系统。Platform LSF覆盖从Windows到UNIX以及Linux,再到Cray、NEC和IBM的超级计算机,IBM超级计算机采用全球最先进的架构,为客户提供完全自由的选择,利用一款全面支持的软件产品,针对最佳作业运行最佳平台。
以下操作环境和架构均支持Platform LSF:
关于在不同平台LSF版本上支持的平台LSF系统详细信息,请参照以下网址:
http://www-03.ibm.com/systems/technicalcomputing/platformcomputing/products/lsf/index.html
IBM Platform LSF提供了可选的附加组件,可以安装以扩展工作负载管理功能集。以下附加组件设计旨在协同工作解决你的高性能计算需求:
Platform LSF的用例
Platform LSF家族产品专注于以下技术计算市场:
IBM Platform LSF在很多行业得到了成功部署,用于管理批量和高度并行的工作负载。Platform LSF的用户使用案例受益于关键行业领先独立软件厂商的应用支持。在Platform应用中心内的IBM Platform LSF具有完整的应用模版,覆盖ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、ClustalW、CMGL STARS、CMGL IMEX、CMGL GEM、HMMER、LS-DYNA、MATLAB、MSC Nastran、NCBI Blast、NWChem、Schlumberger ECLIPSE、Simulia Abaqus、STAR-CCM,以及用于内部或者开源应用的通用模板。通过访问应用的标准化,Platform应用中心可以更容易地执行站点策略并解决基于角色的访问控制(RBAC)的安全担忧。
通过Platform LSF,计算资源通过动态和透明的负载共享提供给用户。通过其透明远程作业运行,Platform LSF提供了强大的远程主机以提高应用性能,这使得用户能够在系统中的任何地方访问资源。
Platform LSF架构
Platform LSF是一个位于异构企业资源之上的软件服务层。下表显示了这种分层的服务模式,它接受并且调用工作负载为批量或者非批量处理应用、管理资源和监控所有活动。
Platform LSF分层的服务模式
上图中显示了工作负载资源管理层的三个核心组件,分别是LSF Base、LSF Batch和LSF Libraries。这三个组件一起帮助创建一个共享的、可扩展的、容错的基础设施,交付更快速更可靠的工作负载性能。
LSF Base为分布式系统提供了基础的负载均衡服务,例如资源使用情况信息、主机选择、作业安置决策、透明远程运行作业以及远程文件选项。这些服务是通过以下组件提供的:
有多个工具例如lstools、lstcsh和lsmake可用于管理工作负载。
LSFBatch将Platform LSF基础服务扩展至能够为批量作业处理系统提供负载均衡和基于策略的资源分配控制。为了提供这种功能,LSF Batch使用以下一些平台LSF的基础服务:
Platform LSF Batch的核心组件是基于Master Batch Scheduler守护进程(mbschd)的调度框架,与多个插件进行结合。所有调度策略都是在插件中实现的。针对每个调度周期,触发调度,然后控制负载通过每个调度策略插件,并按照调度策略选择和派发到执行节点。
在不同的调度阶段,这个插件都可以拦截作业负载并影响最终决策。这意味着为了做出调度决策,Platform LSF采用多个调度方法,可以并发运行以及用于任何组合中,包括用户定义的定制调度方法。这种独特的模块化架构让调度器框架可扩展增加新策略例如新的亲和插件。
LSF Batch服务是有两个守护进程提供的。Master Batch守护进程(mbatchd)运行在主主机上,负责系统中整体作业状态。它接收作业提交和信息查询请求。守护进程管理队列中的作业,迅速将作业调遣至由mbatchd决定的主机。Slave Batch守护进程(sbatchd)运行在每个从属主机上。守护进程接收请求运行来自mbatchd的作业,并管理作业的本地运行。它负责执行本地策略并维持主机上的作业状态。守护进程创建一个子sbatchd以应对每个作业运行。这个子sbatchd将作业发送到RES,后者创建作业运行的环境。
LSF库为分布式计算应用开发者提供API,以访问作业调度和资源管理功能,提供以下一些平台LSF库:
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。