剖析Linux系统下基于NUMA构建的服务

ZDNet软件频道 时间:2008-06-30 作者:korn | 赛迪网 我要评论()
本文关键词:命令行 Linux 技巧
NUMA(非一致内存访问)是一个在多重处理系统中配置微处理器的簇的方法,这样他们可以在本地共享内存,提高系统扩展的性能和能力。

Linux 对NUMA系统的物理内存分布信息是从系统firmware的ACPI表中获得的,最重要的是 SRAT(System Resource Affinity Table)和 SLIT(System Locality Information Table)表,其中SRAT包含两个结构: 

  Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息; 

  Memory Affinity Structure:记录内存的信息; 

  SLIT表则记录了各个结点之间的距离,在系统中由数组node_distance[ ] 记录。Linux采用Node、Zone和页三级结构来描述物理内存的,如图2所示, 


图 2 Linux 中 Node、Zone 和页的关系
 
  2.2 Zone 

  每个结点的内存被分为多个块,称为zones,它表示内存中一段区域。一个zone用struct_zone_t结构描述,zone的类型主要有ZONE_

DMA、 ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间,用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分,许多内核操作只能在ZONE_NORMAL中进行。例如,在X86中,zone的物理地址如下: 

  类型 地址范围 

  ZONE_DMA前16MB内存;ZONE_NORMAL 16MB - 896MB;ZONE_HIGHMEM 896 MB以上。Zone是用struct zone_t描述的,它跟踪页框使用、空闲区域和锁等信息,具体描述如下: 

  typedef struct zone_struct {
   spinlock_t lock;
  unsigned long free_pages;
  unsigned long pages_min, pages_low, pages_high;
  int need_balance;
  free_area_t free_area[MAX_ORDER];
  wait_queue_head_t * wait_table;
  unsigned long wait_table_size;
  unsigned long wait_table_shift;
  struct pglist_data *zone_pgdat;
  struct page *zone_mem_map;
  unsigned long zone_start_paddr;
  unsigned long zone_start_mapnr;
  char *name;
  unsigned long size;
  } zone_t;

  下面就该结构中的主要域进行说明: 

  域说明 

  Lock旋转锁,用于保护该zone,free_pages 该zone空闲页总数 pages_min,pages_low,pages_high Zone的阈值,need_balance 该标志告诉kswapd需要对该zone的页进行交换,Free_area 空闲区域的位图,用于buddy分配器。wait_table等待释放该页进程的队列散列表,这对 wait_on_page()和unlock_page()是非常重要的。当进程都在一条队列上等待时,将引起进程的抖动。zone_mem_map 全局mem_map中该zone所引用的第一页。zone_start_paddr 含义与node_start_paddr类似。 zone_start_mapnr含义与node_start_mapnr类似。Name 该zone的名字。如,“DMA”,“Normal”或 “HighMem”。Size Zone的大小,以页为单位。 

  当系统中可用的内存比较少时,kswapd将被唤醒,并进行页交换。如果需要内存的压力非常大,进程将同步释放内存。如前面所述,每个zone有三个阈值,称为pages_low,pages_min和pages_high,用于跟踪该zone的内存压力。pages_min的页框数是由内存初始化 free_area_init_core函数,根据该zone内页框的比例计算的,最小值为20页,最大值一般为255页。当到达pages_min时,分配器将采用同步方式进行kswapd的工作;当空闲页的数目达到pages_low时,kswapd被buddy分配器唤醒,开始释放页;当达到 pages_high时,kswapd将被唤醒,此时kswapd不会考虑如何平衡该zone,直到有pages_high空闲页为止。一般情况下,pages_high缺省值是pages_min的3倍。 

  Linux存储管理的这种层次式结构可以将ACPI的SRAT和SLIT信息与Node、Zone实现有效的映射,从而克服了传统Linux中平坦式结构无法反映NUMA架构的缺点。当一个任务请求分配内存时,Linux采用局部结点分配策略,首先在自己的结点内寻找空闲页;如果没有,则到相邻的结点中寻找空闲页;如果还没有,则到远程结点中寻找空闲页,从而在操作系统级优化了访存性能。


百度大联盟认证黄金会员Copyright© 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号 京ICP备09041801号-159
京公网安备:1101082134