科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道剖析Linux系统下基于NUMA构建的服务器 (2)

剖析Linux系统下基于NUMA构建的服务器 (2)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于 NUMA 架构的服务器,本文重点讨论了当前 Linux 的 NUMA 技术

作者:huanyuang 来源:赛迪网 2007年9月7日

关键字: 服务器 NUMA 操作系统 Linux

  • 评论
  • 分享微博
  • 分享邮件
 

目前 IA64 Linux 所支持的 NUMA 架构服务器的物理拓扑描述是通过 ACPI(Advanced Configuration and Power Interface)实现的。ACPI 是由 Compaq、Intel、Microsoft、Phoenix 和 Toshiba 联合制定的 BIOS 规范,它定义了一个非常广泛的配置和电源管理,目前该规范的版本已发展到 2.0,3.0 版本正在制定中,具体信息可以从 http://www.acpi.info 网站上获得。ACPI 规范也已广泛应用于 IA-32 架构的至强服务器系统中。

Linux 对 NUMA 系统的物理内存分布信息是从系统 firmware 的 ACPI 表中获得的,最重要的是 SRAT(System Resource Affinity Table)和 SLIT(System Locality Information Table)表,其中 SRAT 包含两个结构:

Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息;

Memory Affinity Structure:记录内存的信息;

SLIT 表则记录了各个结点之间的距离,在系统中由数组 node_distance[ ] 记录。Linux 采用 Node、Zone 和页三级结构来描述物理内存的,如图 2 所示,

图 2 Linux 中 Node、Zone 和页的关系

2.1 结点

Linux 用一个 struct pg_data_t 结构来描述系统的内存,系统中每个结点都挂接在一个 pgdat_list 列表中,对 UMA 体系结构,则只有一个静态的 pg_data_t 结构 contig_page_data。对 NUMA 系统来说则非常容易扩充,NUMA 系统中一个结点可以对应 Linux 存储描述中的一个结点,具体描述见 linux/mmzone.h。

typedef struct pglist_data {

  zone_t node_zones[MAX_NR_ZONES];

  zonelist_t node_zonelists[GFP_ZONEMASK+1];

  int nr_zones;

  struct page *node_mem_map;

  unsigned long *valid_addr_bitmap;

  struct bootmem_data *bdata;

  unsigned long node_start_paddr;

  unsigned long node_start_mapnr;

  unsigned long node_size;

  int node_id;

  struct pglist_data *node_next;

  } pg_data_t;

下面就该结构中的主要域进行说明:

域说明

Node_zones 该结点的 zone 类型,一般包括 ZONE_HIGHMEM、ZONE_NORMAL 和 ZONE_DMA 三类Node_zonelists 分配时内存时 zone 的排序。它是由 free_area_init_core() 通过 page_alloc.c 中的 build_zonelists() 设置 zone 的顺序nr_zones 该结点的 zone 个数,可以从 1 到 3,但并不是所有的结点都需要有 3 个 zonenode_mem_map 它是 struct page 数组的第一页,该数组表示结点中的每个物理页框。根据该结点在系统中的顺序,它可在全局 mem_map 数组中的某个位Valid_addr_bitmap 用于描述结点内存空洞的位图,node_start_paddr 该结点的起始物理地址。node_start_mapnr 给出在全局 mem_map 中的页偏移,在free_area_init_core() 计算在 mem_map 和 lmem_map 之间的该结点的页框数目,node_size 该 zone 内的页框总数,node_id 该结点的 ID,全系统结点 ID 从 0 开始。系统中所有结点都维护在 pgdat_list 列表中,在 init_bootmem_core 函数中完成该列表初始化工作。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章