详解Linux2.6内核新变化(2)

虚拟内存的变化

　　从虚拟内存的角度来看，新内核融合了 Rik van Riel 的 r-map (反向映射，reverse mapping)技术，将显著改善虚拟内存在一定程度负载下的性能。

　　为了理解反向映射技术，让我们来首先简单了解 Linux 虚拟内存系统的一些基本原理。

　　Linux 内核工作于虚拟内存模式：每一个虚拟页对应一个相应的系统内存的物理页。虚拟页和物理页之间的地址转换由硬件的页表来完成。对于一个特定的虚拟页，根据一条页表记录可以找到对应的物理页，或者是页无法找到的提示（说明存在一个页错误）。但是这种"虚拟到物理"的页映射不是总是一一对应的：多个虚拟页（被不同的进程共享的页）有可能指向同一个物理页。在这种情况下，每个共享进程的页记录将有指向对应物理页的映射。如果有类似这样的情况，当内核想要释放特定的物理页时，事情会变得复杂，因为它必须遍历所有的进程页表记录来查找指向这个物理页的引用；它只能在引用数达到0时才能释放这个物理页，因为它没有别的办法可以知道是不是还存在实际指向这个页的引用。这样当负载较高时会让虚拟内存变得非常慢。

　　反向地址映射补丁通过在结构页引入一个叫做 pte_chain 的数据结构（物理页结构）来解决这一问题。pte_chain 是一个指向页的 PTE 的简单链接列表，可以返回特定的被引用页的 PTE 列表。页释放一下子变得非常简单了。不过，在这种模式中存在一个指针开销。系统中的每一个结构页都必须有一个额外的用于 pte_chain 的结构。在一个256M内存的系统中，有64K个物理页，这样就需要有 64KB * (sizeof(struct pte_chain)) 的内存被分配用于 pte_chain 的结构??一个很可观的数字。

　　有一些可以解决这个问题的技术，包括从结构页中删掉 wait_queue_head_t 域（用于对页的独占访问）。因为这个等待队列极少用到，所以在 rmap 补丁中实现了一个更小的队列，通过哈希队列来找到正确的等待队列。

　　尽管如此，rmap 的性能??尤其是处于高负载的高端系统??相对于2.4内核的虚拟内存系统还是有了显著的提高。

　　Linux 2.6的驱动程序移植

　　2.6内核给驱动程序开发人员带来了一系列非常有意义的变化。本节重点介绍将驱动程序从2.4内核移植到2.6内核的一些重要方面。

　　首先，相对于2.4来说，改进了内核编译系统，从而获得更快的编译速度。加入了改进的图形化工具：make xconfig（需要Qt库）和make gconfig（需要GTK库）。

　　以下是2.6编译系统的一些亮点：

　　

　　当使用make时自动创建 arch-zImage 和模块

　　使用 make -jN 可以进行并行的 make

　　make 默认的不是冗余方式（可以通过设置 KBUILD_VERBOSE=1 或者使用 make V=1来设置为冗余方式）

　　make subdir/ 将编译 subdir/ 及其子目录下的所有文件

　　make help 将提供 make 目标支持

　　在任何一个阶段都不需要再运行 make dep

　　内核模块加载器也在2.5中完全被重新实现，这意味着模块编译机制相对于2.4有了很大不同。需要一组新的模块工具来完成模块的加载和?载 (他们的下载链接可以在参考资料中找到)，原来的2.4所用的 makefile 在2.6下不能再用。

　　新的内核模块加载器是由 Rusty Russel 开发的。它使用内核编译机制，产生一个 .ko(内核目标文件，kernel object)模块目标文件而不是一个 .o 模块目标文件。内核编译系统首先编译这些模块，并将其连接成为 vermagic.o。这一过程在目标模块创建了一个特定部分，以记录使用的编译器版本号，内核版本号，是否使用内核抢占等信息。

　　现在让我们来看一个例子，分析一下新的内核编译系统如何来编译并加载一个简单的模块。这个模块是一个“hello world”模块，代码和2.4模块代码基本类似，只是 module_init 和 module_exit 要换成 init_module 和 cleanup_module （内核2.4.10模块已经使用这种机制）。这个模块命名为 hello.c，Makefile 文件如下：

　　清单 3.

　　驱动程序 makefile 文件示例

　　

KERNEL_SRC = /usr/src/linux

　　SUBDIR = $(KERNEL_SRC)/drivers/char/hello/

　　all: modulesobj-m := module.o

　　hello-objs := hello.oEXTRA_FLAGS += -DDEBUG=1modules:

　　$(MAKE) -C $(KERNEL_SRC) SUBDIR=$(SUBDIR) modules

　　makefile 文件使用内核编译机制来编译模块。编译好的模块将被命名为 module.ko，并通过编译 hello.c 和连接 vermagic 而获得。KERNEL_SRC 指定内核源文件所在的目录，SUBDIR 指定放置模块的目录。EXTRA_FLAGS 指定了需要给出的编译期标记。

　　一旦新模块（module.ko）被创建，它可以被新的模块工具加载或?载。2.4中的原有模块工具不能用来加载或?载2.6的内核模块。这个新的模块加载工具会尽量减少在一个设备仍在使用的情况下相应的模块却被?载的冲突发生，而是在确认这些模块已经没有任何设备在使用后再?载它。产生这种冲突的原因之一是模块使用计数是由模块代码自己来控制的（通过MOD_DEC/INC_USE_COUNT）。

　　

　　在2.6中，模块不再需要对引用计数进行加或减，这些工作将在模块代码外部进行。任何要引用模块的代码都必须调用 try_module_get(&module)，只有在调用成功以后才能访问那个模块；如果被调用的模块已经被?载，那么这次调用会失败。相应的，可以通过使用 module_put() 来释放对模块的引用。

　　内存管理的变化

　　在2.5的开发过程中，加入了内存池，以满足无间断地进行内存分配。其思想是预分配一个内存池，并保留到真正需要的时候。一个内存池由 mempool_create() 调用来创建（应该包含头文件 linux/mempool.h）。

　　mempool_t *mempool_create(int min_nr, mempool_alloc_t *alloc_fn,

　　mempool_free_t *free_fn, void *pool_data);

　　在这里 min_nr 是需要预分配对象的数目，alloc_fn 和 free_fn 是指向内存池机制提供的标准对象分配和回收例程的指针。他们的类型是：

　　typedef void *(mempool_alloc_t)(int gfp_mask, void *pool_data);

　　typedef void (mempool_free_t)(void *element, void *pool_data);

　　pool_data 是分配和回收函数用到的指针，gfp_mask 是分配标记。只有当 __GFP_WAIT 标记被指定时，分配函数才会休眠。

　　在池中分配和回收对象是由以下程序完成的：

　　void *mempool_alloc(mempool_t *pool, int gfp_mask);

　　void mempool_free(void *element, mempool_t *pool);

　　mempool_alloc() 用来分配对象；如果内存池分配器无法提供内存，那么就可以用预分配的池。

　　系统使用 mempool_destroy() 来回收内存池。

　　除了为内存分配引入了内存池之外，2.5内核还引入了三个用于常规内存分配的新的GFP标记，它们是：

　　__GFP_REPEAT -- 告诉页分配器尽力去分配内存。如果内存分配失败过多，应该减少这个标记的使用。

　　__GFP_NOFAIL -- 不能出现内存分配失败。这样，由于调用者被转入休眠状态，可能需要一段比较长的时间才能完成分配，调用者的需求才能得到满足。

　　__GFP_NORETRY -- 保证分配失败后不再重试，而向调用者报告失败状态。

　　除了内存分配的变化以外，remap_page_range()调用——用来映射页到用户空间——也经过了少量修改。相对于2.4来说，现在它多了一个参数。虚拟内存区域（VMA）指针要作为第一个参数，然后是四个常用的参数（start，end，size 和 protection 标记）。

　　工作队列接口

　　工作队列接口是在2.5的开发过程中引入的，用于取代任务队列接口（用于调度内核任务）。每个工作队列有一个专门的线程，所有来自运行队列的任务在进程的上下文中运行（这样它们可以休眠）。驱动程序可以创建并使用它们自己的工作队列，或者使用内核的一个工作队列。工作队列用以下方式创建：

　　

　　struct workqueue_struct *create_workqueue(const char *name);

　　在这里 name 是工作队列的名字。

　　工作队列任务可以在编译时或者运行时创建。任务需要封装为一个叫做 work_struct 的结构体。在编译期初始化一个工作队列任务时要用到：

　　DECLARE_WORK(name, void (*function)(void *), void *data);

　　在这里 name 是 work_struct 的名字，function 是当任务被调度时调用的函数，data 是指向那个函数的指针。

　　在运行期初始化一个工作队列时要用到：

　　INIT_WORK(struct work_struct *work, void (*function)(void *), void *data);

　　用下面的函数调用来把一个作业（一个类型为work_struct 结构的工作队列作业/任务）加入到工作队列中：

　　int queue_work(struct workqueue_struct *queue, struct work_struct *work);

　　int queue_delayed_work(struct workqueue_struct *queue, struct work_struct

　　*work, unsigned long delay);

　　在queue_delay_work()中指定 delay，是为了保证至少在经过一段给定的最小延迟时间以后，工作队列中的任务才可以真正执行。

　　工作队列中的任务由相关的工作线程执行，可能是在一个无法预期的时间（取决于负载，中断等等），或者是在一段延迟以后。任何一个在工作队列中等待了无限长