GNU/Linux文件及文件系统
觉得自己写得比较好的一次操作系统作业,而且可能对大家在Linux的使用中有帮助,所以贴上来。。GNU/Linux用户都知道,在*nix业界有一句话叫做“一切皆文件”,这是对Linux文件系统的一个很好抽象,正规地,Linux的文件系统可以认为包括4种主要组成部分:名字空间(给事物取名,并按一种层次解构组织他们的形式)、API(用来便利和操作对象的一套系统调用)、安全模型(用来保护,隐藏何共享事物的方案)、实现(把逻辑模型同实际硬件联系到一起的软件)
Linux定义了一个抽象的内核级接口,能够容许集中不同的后端文件系统,文件树的有些部分由传统的给予磁盘的实现来处理,其他部分则由内核中单独的驱动程序来负责。我们说“Linux中一切皆文件”直观地可以这样理解:所有的东西,设备、内存都模拟成文件,我们可以把他分成5种文件类型,c 字符设备、b 块设备、l 连接、f 普通文件、d 目录。而Windows中,我们则可以极端地认为“一切皆设备”,所有文件都使用inode文件索引,inode文件索引是Linux文件系统的一大特色,利弊都很明显,inode设计方便程序使用,能够提供各种功能的实现,但是同时inode本身也成为了一种限制(比如inode用完了就算还有物理空间都不能再使用了),但是我们在使用mke2fs格式化文件系统的时候,可以通过参数-i来指定目标逻辑分区的inode数量,说到mke2fs就必然说到linux传统的两种文件格式——ext2跟ext3,ext3跟ext2文件格式的不同,就是在于ext3是在ext2文件格式上加入了日值系统,于是我们可以想到,我们可以不必改变文件格式的基础结构,在这两种方式间互相切换,我们可以很简单地使用mke2fs -j /dev/hda*来为ext2开启日志使之成ext3文件系统(反之,我们也可以通过关闭日志把它当作一个ext2文件系统来使用。),Linux的灵活性还体现在我们甚至可以通过-J device=""来指定日志文件的存放位置,也就是说,我们可以把/dev/hda1的日志文件放在/dev/hda2上,ext3日志文件大小介于1024到102400个文件系统块之间,在使用mke2fs -j格式化完成一个文件系统之后,我们可以通过df -h /dev/hda*整个命令来查看被格式化硬盘的状况,我们可以看到约有1%的空间被使用掉了。这就是为日志文件开辟的区域!
在发生文件系统操作的时候,所要求的修改首先写入日志,在完成日志更新之后,写入一条“提交记录(commit record)”标记日志项的结束。只有这样以后,才对正规的文件系统做修改,如果发生了崩溃,可以用日志记录重构出完全相同的文件系统,除了ext3文件系统,还有一种叫做ReiserFS的文件系统也被广泛地应用,它也是一种日志文件系统,但是这种文件系统没有针对系统(比如服务器)进行优化,可能会碰到大量的同时读写现象。除了日志功能之外,Reiser还提供了一种模块化的文件系统接口,能让软件开发人员和系统管理员在非常细的粒度上指定应该怎样处理和保护文件。
下面再详细地讲一下ext2跟ext3文件系统,ext2文件系统由5个部分构成,一组索引结点(inode)存储单元,一组分散的“超级块(superblock)”,一组文件系统中磁盘块的映射表。一份磁盘块使用情况的汇总,最后是数据块。每个文件系统都被分成若干个块簇,诸如inode表这样的结构在块簇之间进行分配,于是,要一起访问的若干磁盘块可以在硬盘上彼此保存得很靠近。这种成簇机制减少了在访问同一个文件时需要搜索整个硬盘的情况,缩影结点是长度固定的表项,每个索引结点都保存着一个文件的信息,因为在Linxu初始化文件系统的结构时,必须开辟出一块空间用来保存索引结点。也就是我前面说过的mke2fs -i来指定inode数量,但是一般情况下我们默认即可,superblock是一个描述文件系统特性的记录。它包括的信息有:磁盘块的长度,索引结点表的大小和位置,磁盘块的映射表和使用信息,块簇大小,以及其他几个重要的文件系统的参数,因为superblock的如此重要,所以损坏超级块会对文件系统造成很严重的后果,因此在硬盘上的分散位置(在每个块簇的起始处)保存有它的几个副本。Linux为每个已经安装的文件系统在内存中保存有一个超级块的副本,又在硬盘上保存了几个副本,系统调用sync把被缓存的超级块flush到它们硬盘上的永久位置上,瞬间就让文件系统保持了一致性。sync也会flush已经修改过的索引结点和被缓存的数据块,我们可以通过update命令启动守护进程bdflush,它每30s执行一次sync调用,将每次崩溃,比如断电造成的数据损失降到最低。(我们都知道,Linux为了提高性能,一定程度上缓和磁盘读写速度瓶颈,采用了系统内存做磁盘缓存,一旦断电,缓存中的数据将无法及时写入磁盘,造成损失。)文件系统的磁盘块映射表是它所包含的自由块的一张表。在写心文件的时候,就要检查这个映射表,设计一种有效的布局方案。块的使用情况汇总记录了已经投入使用的块的基本信息。
而之前说过的ext3跟ext2文件系统最大的不同就是它的日志文件,ext3的sync每5秒执行一次同步操作,在选择日志模式方面,我们还可以在性能和功能之间有三种权衡的选择:默认ordered模式保证文件系统始终保持一致性,writeback模式在系统崩溃后会产生受损文件,但在某些情况下运行速度更快,journal模式使用的日志文件最大,一定程度上会降低系统重启时回复文件系统的速度,但是在对于数据库应用时速度更快。ext3文件系统的模式是用/etc/fstab文件中的data=mode选项来设置的,可以是上面三者之一。下面提一下swap,跟windows的虚拟页面文件相似,是在磁盘上虚拟出一块超慢的ram。我们可以通过mkswap /dev/hda*来创建swap区,并且通过使用swapon /dev/hda*来启用swap。
最后来讲一下Linux文件系统的检查跟修复。系统在发生内核时空或者电源失效的任何时候,都可能在朋亏之前给处于活动状态的文件系统引入少量的不一致性,因为内核对数据块和汇总信息进行了缓冲,所以该文件系统最近的影响在硬盘和内存之间进行了分摊,在系统崩溃的过程中,映象的那讯部分丢失了,内存中被缓冲的块都被那些最近才保存到硬盘上的数据有效地“覆盖”了,于是造成数据损坏,解决这个问题有两个途径,小损坏可以使用fsck(filesystem consisitency check意思是文件一致性检查)命令来修复。前面已经说过,比如ext3这样的日志文件系统将元数据写出到一个连续的日志文件中,在命令返回之前日志文件才被缓冲到硬盘上,元数据最终会从日志中移至它在文件系统中的固定位置去。如果系统崩溃了,那么日志就可以返回到最近一次保持一致性的地方,,不要求对文件系统进行完全的交叉检查。在引导系统的时候,也要运行fsck,以确保文件系统处于一致状态,但是它的运行速度比检查传统的ext2文件系统要快得多。在具有大型文件系统的系统中,整个功能可以帮助节省很多启动时间。最常见的损坏类型有5种,未被引用的索引结点,超大的连接数目,没有记录在磁盘块映射表中的空闲数据块,列出的空闲数据块还在某个文件中使用,超级块中的汇总信息不正确。fsck能够安全和自动修复这5类问题。在修复过程中,如果fsck找到一个无法确定其父目录的文件,那么它会把该文件放到lost+found目录中,因为一个文件的名称只被记录在该文件的父目录中,所以孤儿文件的名字是不能被使用的,所以仿制在lost+found中的文件将用他们的inode号来命名。最后提一下,对于非常重要的数据,fsck对于非上面5类错误可能造成更大的不可挽回的损失,所以我们应该使用dump转存储硬盘,或者用dd整个文件系统。