Linux的NUMA 技术-DOIT-数据产业媒体与服务平台

    NUMA（Non-Uniform Memory Access Architecture）系统在市场上的应用越来越广泛，许多厂商都成功推出了基于 NUMA 架构的服务器，本文重点讨论了当前 Linux 的 NUMA 技术，主要包括：存储管理、NUMA 调度和用户层的 API，并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试，对进行 Linux NUMA 技术的研究具有参考价值。

    一、引言

    随着科学计算、事务处理对计算机性能要求的不断提高，SMP（对称多处理器）系统的应用越来越广泛，规模也越来越大，但由于传统的 SMP 系统中，所有处理器都共享系统总线，因此当处理器的数目增大时，系统总线的竞争冲突加大，系统总线将成为瓶颈，所以目前 SMP 系统的 CPU 数目一般只有数十个，可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP（大规模并行）系统易扩展性的特点，较好解决了 SMP 系统的可扩展性问题，已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器，如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟，Linux 内核对 NUMA 架构的支持也越来越完善，特别是从 2.5 开始，Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作，目前这部分工作还在不断地改进，如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。

    二、NUMA 存储管理

    NUMA 系统是由多个结点通过高速互连网络连接而成的，如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。


    图 1 SGI Altix3000 系统的两个结点

    NUMA 系统的结点通常是由一组 CPU（如，SGI Altix 3000 是 2 个Itanium2 CPU）和本地内存组成，有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存，因此全系统的内存在物理上是分布的，每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的，为了减少非一致性访存对系统的影响，在硬件设计时应尽量降低远地内存访存延迟（如通过 Cache 一致性设计等），而操作系统也必须能感知硬件的拓扑结构，优化系统的访存。

   目前 IA64 Linux 所支持的 NUMA 架构服务器的物理拓扑描述是通过 ACPI（Advanced Configuration and Power Interface）实现的。ACPI 是由 Compaq、Intel、Microsoft、Phoenix 和 Toshiba 联合制定的 BIOS 规范，它定义了一个非常广泛的配置和电源管理，目前该规范的版本已发展到 2.0，3.0 版本正在制定中，具体信息可以从 http://www.acpi.info 网站上获得。ACPI 规范也已广泛应用于 IA-32 架构的至强服务器系统中。

    Linux 对 NUMA 系统的物理内存分布信息是从系统 firmware 的 ACPI 表中获得的，最重要的是 SRAT（System Resource Affinity Table）和 SLIT（System Locality Information Table）表，其中 SRAT 包含两个结构：

    Processor Local APIC/SAPIC Affinity Structure：记录某个 CPU 的信息；

    Memory Affinity Structure：记录内存的信息；

SLIT 表则记录了各个结点之间的距离，在系统中由数组 node_distance[ ] 记录。

    Linux 采用 Node、Zone 和页三级结构来描述物理内存的，如图 2 所示，



     图 2 Linux 中 Node、Zone 和页的关系

  . 1 结点

    Linux 用一个 struct pg_data_t 结构来描述系统的内存，系统中每个结点都挂接在一个 pgdat_list 列表中，对 UMA 体系结构，则只有一个静态的 pg_data_t 结构 contig_page_data。对 NUMA 系统来说则非常容易扩充，NUMA 系统中一个结点可以对应 Linux 存储描述中的一个结点，具体描述见 linux/mmzone.h。

typedef struct pglist_data {

zone_t node_zones[MAX_NR_ZONES];

zonelist_t node_zonelists[GFP_ZONEMASK+1];

int nr_zones;

struct page *node_mem_map;

unsigned long *valid_addr_bitmap;

struct bootmem_data *bdata;

unsigned long node_start_paddr;

unsigned long node_start_mapnr;

unsigned long node_size;

int node_id;

struct pglist_data *node_next;

} pg_data_t;

下面就该结构中的主要域进行说明：

域	说明
Node_zones	该结点的 zone 类型，一般包括 ZONE_HIGHMEM、ZONE_NORMAL 和 ZONE_DMA 三类
Node_zonelists	分配时内存时 zone 的排序。它是由 free_area_init_core() 通过 page_alloc.c 中的 build_zonelists() 设置 zone 的顺序
nr_zones	该结点的 zone 个数，可以从 1 到 3，但并不是所有的结点都需要有 3 个 zone
node_mem_map	它是 struct page 数组的第一页，该数组表示结点中的每个物理页框。根据该结点在系统中的顺序，它可在全局 mem_map 数组中的某个位置
Valid_addr_bitmap	用于描述结点内存空洞的位图
node_start_paddr	该结点的起始物理地址
node_start_mapnr	给出在全局 mem_map 中的页偏移，在free_area_init_core() 计算在 mem_map 和 lmem_map 之间的该结点的页框数目
node_size	该 zone 内的页框总数
node_id	该结点的 ID，全系统结点 ID 从 0 开始

    系统中所有结点都维护在 pgdat_list 列表中，在 init_bootmem_core 函数中完成该列表初始化工作。

     2.2 Zone

   每个结点的内存被分为多个块，称为zones，它表示内存中一段区域。一个zone用struct_zone_t结构描述，zone的类型主要有ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间，用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分，许多内核操作只能在ZONE_NORMAL中进行。例如，在X86中，zone的物理地址如下：

类型	地址范围
ZONE_DMA	前16MB内存
ZONE_NORMAL	16MB – 896MB
ZONE_HIGHMEM	896 MB以上

Zone是用struct zone_t描述的，它跟踪页框使用、空闲区域和锁等信息，具体描述如下：

typedef struct zone_struct {

spinlock_t lock;

unsigned long free_pages;

unsigned long pages_min, pages_low, pages_high;

int need_balance;

free_area_t free_area[MAX_ORDER];

wait_queue_head_t * wait_table;

unsigned long wait_table_size;

unsigned long wait_table_shift;

struct pglist_data *zone_pgdat;

struct page *zone_mem_map;

unsigned long zone_start_paddr;

unsigned long zone_start_mapnr;

char *name;

unsigned long size;

} zone_t;

下面就该结构中的主要域进行说明：

域	说明
Lock	旋转锁，用于保护该zone
free_pages	该zone空闲页总数
pages_min, pages_low, pages_high	Zone的阈值
need_balance	该标志告诉kswapd需要对该zone的页进行交换
Free_area	空闲区域的位图，用于buddy分配器
wait_table	等待释放该页进程的队列散列表，这对wait_on_page()和unlock_page()是非常重要的。当进程都在一条队列上等待时，将引起进程的抖动
zone_mem_map	全局mem_map中该zone所引用的第一页
zone_start_paddr	含义与node_start_paddr类似
zone_start_mapnr	含义与node_start_mapnr类似
Name	该zone的名字。如，“DMA”，“Normal”或“HighMem”
Size	Zone的大小，以页为单位

    当系统中可用的内存比较少时，kswapd将被唤醒，并进行页交换。如果需要内存的压力非常大，进程将同步释放内存。如前面所述，每个zone有三个阈值，称为pages_low，pages_min和pages_high，用于跟踪该zone的内存压力。pages_min的页框数是由内存初始化free_area_init_core函数，根据该zone内页框的比例计算的，最小值为20页，最大值一般为255页。当到达pages_min时，分配器将采用同步方式进行kswapd的工作；当空闲页的数目达到pages_low时，kswapd被buddy分配器唤醒，开始释放页；当达到pages_high时，kswapd将被唤醒，此时kswapd不会考虑如何平衡该zone，直到有pages_high空闲页为止。一般情况下，pages_high缺省值是pages_min的3倍。

    Linux存储管理的这种层次式结构可以将ACPI的SRAT和SLIT信息与Node、Zone实现有效的映射，从而克服了传统Linux中平坦式结构无法反映NUMA架构的缺点。当一个任务请求分配内存时，Linux采用局部结点分配策略，首先在自己的结点内寻找空闲页；如果没有，则到相邻的结点中寻找空闲页；如果还没有，则到远程结点中寻找空闲页，从而在操作系统级优化了访存性能。

Linux的NUMA 技术

多易

相关推荐

近期文章

热门标签