剖析Linux系统下基于NUMA构建的服务

ZDNet软件频道 时间:2008-06-30 作者:korn | 赛迪网 我要评论()
本文关键词:命令行 Linux 技巧
NUMA(非一致内存访问)是一个在多重处理系统中配置微处理器的簇的方法,这样他们可以在本地共享内存,提高系统扩展的性能和能力。

NUMA(非一致内存访问)是一个在多重处理系统中配置微处理器的簇的方法,这样他们可以在本地共享内存,提高系统扩展的性能和能力。

  NUMA被用于对称多处理系统中。对称多处理系统是"紧紧联系"、"

共享一切"的系统,在这个系统里单一操作系统下的多重处理器通过公用总线或"互联"路径访问彼此的内存。对称多处理的一个局限性是当微处理器增加时,共享总线和数据路径变得超载并且成为性能瓶颈。

  NUMA 增加一个在几个微处理器中共享的内存媒介水平,这样一来不用所有的数据访问都在主要的总线上传输。NUMA可以被认为是一个"盒子中的簇"。这个簇一般由四个微处理器(例如四个奔腾微处理器)组成,这四个微处理器通过一条局域总线(例如外围组件互联总线)与一个单独主板(也可能是一个卡)上的共享内存(叫做"L3缓存")连接。这个单元可以添加到相似的单元,形成一个对称多处理系统,其中一条公用对称多处理总线连接所有的簇。这样一个系统典型的包含16到256个微处理器。对一个运行在对称多处理系统中的应用程序来说,所有单独的处理器内存看起来就像一个内存。但一个处理器在特定内存地址寻找数据的时候,它首先察看微处理器本身的L1缓存,然后是附近的稍微大些的L1和L2缓存芯片,再然后是NUMA结构在寻找数据之前提供的第三水平缓存,位于另一个微处理器附近的"远程内存"。

  在互联网络里 NUMA把这些簇的每一个都看作一个"节点"。NUMA维持所有节点上的数据的分级视图。使用可升级连贯接口(SCI)技术,数据被通过总线在NUMA对称多处理系统的簇间移动。SCI 在多重簇的节点之间与叫做"缓存一致"或一致性的东西相配。SMP 和NUMA系统典型的被用于像数据挖掘和决策支持系统这样的应用软件,在这些软件中处理任务可以被分配给许多在一个公用数据库上集体工作的处理器。 Sequent, Data General和 NCR都是生产NUMA SMP 系统的公司。

  NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于 NUMA

 架构的服务器,本文重点讨论了当前 Linux 的 NUMA 技术,主要包括:存储管理、NUMA 调度和用户层的 API,并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试,对进行 Linux NUMA 技术的研究具有参考价值。 

  一、引言 

  随着科学计算、事务处理对计算机性能要求的不断提高,SMP(对称多处理器)系统的应用越来越广泛,规模也越来越大,但由于传统的 SMP 系统中,所有处理器都共享系统总线,因此当处理器的数目增大时,系统总线的竞争冲突加大,系统总线将成为瓶颈,所以目前 SMP 系统的 CPU 数目一般只有数十个,可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP(大规模并行)系统易扩展性的特点,较好解决了 SMP 系统的可扩展性问题,已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器,如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟,Linux 内核对 NUMA 架构的支持也越来越完善,特别是从 2.5 开始,Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作,目前这部分工作还在不断地改进,如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。 

  二、NUMA 存储管理 

  NUMA 系统是由多个结点通过高速互连网络连接而成的,如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。 


图 1 SGI Altix3000 系统的两个结点

  NUMA 系统的结点通常是由一组 CPU(如,SGI Altix 3000 是 2 个Itanium2 CPU)和本地内存组成,有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存,因此全系统的内存在物理上是分布的,每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的,为了减少非一致性访存对系统的影响,在硬件设计时应尽量降低远地内存访存延迟(如通过 Cache 一致性设计等),而操作系统也必须能感知硬件的拓扑结构,优化系统的访存。 

  目前IA64 Linux所支持的NUMA架构服务器的物理拓扑描述是通过ACPI(Advanced Configuration and Pow

er Interface) 实现的。ACPI是由Compaq、Intel、Microsoft、Phoenix和Toshiba 联合制定的BIOS规范,它定义了一个非常广泛的配置和电源管理,目前该规范的版本已发展到2.0,3.0版本正在制定中,具体信息可以从http://www.acpi.info 网站上获得。 ACPI规范也已广泛应用于IA-32架构的至强服务器系统中。 


百度大联盟认证黄金会员Copyright© 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号 京ICP备09041801号-159
京公网安备:1101082134