至顶网›软件频道 ›剖析Linux系统下基于NUMA构建的服务

剖析Linux系统下基于NUMA构建的服务

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

NUMA（非一致内存访问）是一个在多重处理系统中配置微处理器的簇的方法，这样他们可以在本地共享内存，提高系统扩展的性能和能力。

作者：korn 来源：赛迪网技术社区 2007年10月14日

NUMA（非一致内存访问）是一个在多重处理系统中配置微处理器的簇的方法，这样他们可以在本地共享内存，提高系统扩展的性能和能力。

　　NUMA被用于对称多处理系统中。对称多处理系统是"紧紧联系"、"

共享一切"的系统，在这个系统里单一操作系统下的多重处理器通过公用总线或"互联"路径访问彼此的内存。对称多处理的一个局限性是当微处理器增加时，共享总线和数据路径变得超载并且成为性能瓶颈。

　　NUMA 增加一个在几个微处理器中共享的内存媒介水平，这样一来不用所有的数据访问都在主要的总线上传输。NUMA可以被认为是一个"盒子中的簇"。这个簇一般由四个微处理器（例如四个奔腾微处理器）组成，这四个微处理器通过一条局域总线（例如外围组件互联总线）与一个单独主板（也可能是一个卡）上的共享内存（叫做"L3缓存"）连接。这个单元可以添加到相似的单元，形成一个对称多处理系统，其中一条公用对称多处理总线连接所有的簇。这样一个系统典型的包含１６到２５６个微处理器。对一个运行在对称多处理系统中的应用程序来说，所有单独的处理器内存看起来就像一个内存。但一个处理器在特定内存地址寻找数据的时候，它首先察看微处理器本身的L1缓存，然后是附近的稍微大些的L1和L2缓存芯片，再然后是NUMA结构在寻找数据之前提供的第三水平缓存，位于另一个微处理器附近的"远程内存"。

　　在互联网络里NUMA把这些簇的每一个都看作一个"节点"。NUMA维持所有节点上的数据的分级视图。使用可升级连贯接口(SCI)技术，数据被通过总线在NUMA对称多处理系统的簇间移动。SCI 在多重簇的节点之间与叫做"缓存一致"或一致性的东西相配。SMP 和NUMA系统典型的被用于像数据挖掘和决策支持系统这样的应用软件，在这些软件中处理任务可以被分配给许多在一个公用数据库上集体工作的处理器。Sequent, Data General和 NCR都是生产NUMA SMP 系统的公司。

　　NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛，许多厂商都成功推出了基于 NUMA

架构的服务器，本文重点讨论了当前 Linux 的 NUMA 技术，主要包括:存储管理、NUMA 调度和用户层的 API，并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试，对进行 Linux NUMA 技术的研究具有参考价值。

　　一、引言

　　随着科学计算、事务处理对计算机性能要求的不断提高，SMP(对称多处理器)系统的应用越来越广泛，规模也越来越大，但由于传统的 SMP 系统中，所有处理器都共享系统总线，因此当处理器的数目增大时，系统总线的竞争冲突加大，系统总线将成为瓶颈，所以目前 SMP 系统的 CPU 数目一般只有数十个，可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP(大规模并行)系统易扩展性的特点，较好解决了 SMP 系统的可扩展性问题，已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器，如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟，Linux 内核对 NUMA 架构的支持也越来越完善，特别是从 2.5 开始，Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作，目前这部分工作还在不断地改进，如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。

　　二、NUMA 存储管理

　　NUMA 系统是由多个结点通过高速互连网络连接而成的，如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。

图 1 SGI Altix3000 系统的两个结点

　　NUMA 系统的结点通常是由一组 CPU(如，SGI Altix 3000 是 2 个Itanium2 CPU)和本地内存组成，有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存，因此全系统的内存在物理上是分布的，每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的，为了减少非一致性访存对系统的影响，在硬件设计时应尽量降低远地内存访存延迟(如通过 Cache 一致性设计等)，而操作系统也必须能感知硬件的拓扑结构，优化系统的访存。

　　目前IA64 Linux所支持的NUMA架构服务器的物理拓扑描述是通过ACPI(Advanced Configuration and Pow

er Interface)实现的。ACPI是由Compaq、Intel、Microsoft、Phoenix和Toshiba 联合制定的BIOS规范，它定义了一个非常广泛的配置和电源管理，目前该规范的版本已发展到2.0，3.0版本正在制定中，具体信息可以从http://www.acpi.info 网站上获得。ACPI规范也已广泛应用于IA-32架构的至强服务器系统中。

　　Linux对NUMA系统的物理内存分布信息是从系统firmware的ACPI表中获得的，最重要的是SRAT(System Resource Affinity Table)和SLIT(System Locality Information Table)表，其中SRAT包含两个结构:

　　Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息;

　　Memory Affinity Structure:记录内存的信息;

　　SLIT表则记录了各个结点之间的距离，在系统中由数组node_distance[ ] 记录。Linux采用Node、Zone和页三级结构来描述物理内存的，如图2所示，

图 2 Linux 中 Node、Zone 和页的关系

　　2.2 Zone

　　每个结点的内存被分为多个块，称为zones，它表示内存中一段区域。一个zone用struct_zone_t结构描述，zone的类型主要有ZONE_

DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间，用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分，许多内核操作只能在ZONE_NORMAL中进行。例如，在X86中，zone的物理地址如下:

　　类型地址范围

　　ZONE_DMA前16MB内存；ZONE_NORMAL 16MB - 896MB；ZONE_HIGHMEM 896 MB以上。Zone是用struct zone_t描述的，它跟踪页框使用、空闲区域和锁等信息，具体描述如下:

　　typedef struct zone_struct {

　　　　　　spinlock_t lock;

　　　　　　unsigned long free_pages;

　　　　　　unsigned long pages_min, pages_low, pages_high;

　　　　　　int need_balance;

　　　　　　free_area_t free_area[MAX_ORDER];

　　　　　　wait_queue_head_t * wait_table;

　　　　　　unsigned long wait_table_size;

　　　　　　unsigned long wait_table_shift;

　　　　　　struct pglist_data *zone_pgdat;

　　　　　　struct page *zone_mem_map;

　　　　　　unsigned long zone_start_paddr;

　　　　　　unsigned long zone_start_mapnr;

　　　　　　char *name;

　　　　　　unsigned long size;

　　　　　　} zone_t;

　　下面就该结构中的主要域进行说明:

　　域说明

　　Lock旋转锁，用于保护该zone,free_pages 该zone空闲页总数pages_min,pages_low,pages_high Zone的阈值,need_balance 该标志告诉kswapd需要对该zone的页进行交换,Free_area 空闲区域的位图，用于buddy分配器。wait_table等待释放该页进程的队列散列表，这对wait_on_page()和unlock_page()是非常重要的。当进程都在一条队列上等待时，将引起进程的抖动。zone_mem_map 全局mem_map中该zone所引用的第一页。zone_start_paddr 含义与node_start_paddr类似。zone_start_mapnr含义与node_start_mapnr类似。Name 该zone的名字。如，“DMA”，“Normal”或“HighMem”。Size Zone的大小，以页为单位。

　　当系统中可用的内存比较少时，kswapd将被唤醒，并进行页交换。如果需要内存的压力非常大，进程将同步释放内存。如前面所述，每个zone有三个阈值，称为pages_low，pages_min和pages_high，用于跟踪该zone的内存压力。pages_min的页框数是由内存初始化free_area_init_core函数，根据该zone内页框的比例计算的，最小值为20页，最大值一般为255页。当到达pages_min时，分配器将采用同步方式进行kswapd的工作;当空闲页的数目达到pages_low时，kswapd被buddy分配器唤醒，开始释放页;当达到pages_high时，kswapd将被唤醒，此时kswapd不会考虑如何平衡该zone，直到有pages_high空闲页为止。一般情况下，pages_high缺省值是pages_min的3倍。

　　Linux存储管理的这种层次式结构可以将ACPI的SRAT和SLIT信息与Node、Zone实现有效的映射，从而克服了传统Linux中平坦式结构无法反映NUMA架构的缺点。当一个任务请求分配内存时，Linux采用局部结点分配策略，首先在自己的结点内寻找空闲页;如果没有，则到相邻的结点中寻找空闲页;如果还没有，则到远程结点中寻找空闲页，从而在操作系统级优化了访存性能。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

剖析Linux系统下基于NUMA构建的服务

业界热点: