揭开Linux的Swap之谜

为什么选择Linux?因为Linux能让你掌握你所做的一切!  
为什么痛恨Windows?因为Windows让你不知道自己在做什么!  
这就是我喜欢Linux的原因。只要我愿意,我可以将底层的系统运行机制看得清清楚楚,可以掌握一切。而Windows尽管界面漂亮,却让你总也猜不透她心里想什么。我不喜欢若即若离的感觉。  


如果你一看到这个标题就觉得头疼,或者对Linux的内部技术根本不关心,那么,我劝你一句:别用Linux了。你只是在追赶潮流,并不是真心喜欢它。 Linux的确没有Windows好用,可它比Windows“结实”。如果你对Linux的稳定性感兴趣,特别是想把Linux作为网站服务器的话,那就请看看下文吧!  

Swap,即交换区,除了安装Linux的时候,有多少人关心过它呢?其实,Swap的调整对Linux服务器,特别是Web服务器的性能至关重要。通过调整Swap,有时可以越过系统性能瓶颈,节省系统升级费用。  

本文内容包括:  


Swap基本原理  

突破128M Swap限制  

Swap配置对性能的影响  

Swap性能监视  

有关Swap操作的系统命令  
Swap基本原理  

Swap的原理是一个较复杂的问题,需要大量的篇幅来说明。在这里只作简单的介绍,在以后的文章中将和大家详细讨论Swap实现的细节。  

众所周知,现代操作系统都实现了“虚拟内存”这一技术,不但在功能上突破了物理内存的限制,使程序可以操纵大于实际物理内存的空间,更重要的是,“虚拟内存”是隔离每个进程的安全保护网,使每个进程都不受其它程序的干扰。  

Swap 空间的作用可简单描述为:当系统的物理内存不够用的时候,就需要将物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间被临时保存到Swap空间中,等到那些程序要运行时,再从Swap中恢复保存的数据到内存中。这样,系统总是在物理内存不够时,才进行Swap交换。  

计算机用户会经常遇这种现象。例如,在使用Windows系统时,可以同时运行多个程序,当你切换到一个很长时间没有理会的程序时,会听到硬盘“哗哗”直响。这是因为这个程序的内存被那些频繁运行的程序给“偷走”了,放到了Swap区中。因此,一旦此程序被放置到前端,它就会从Swap区取回自己的数据,将其放进内存,然后接着运行。  

需要说明一点,并不是所有从物理内存中交换出来的数据都会被放到Swap中(如果这样的话,Swap就会不堪重负),有相当一部分数据被直接交换到文件系统。例如,有的程序会打开一些文件,对文件进行读写(其实每个程序都至少要打开一个文件,那就是运行程序本身),当需要将这些程序的内存空间交换出去时,就没有必要将文件部分的数据放到 Swap空间中了,而可以直接将其放到文件里去。如果是读文件操作,那么内存数据被直接释放,不需要交换出来,因为下次需要时,可直接从文件系统恢复;如果是写文件,只需要将变化的数据保存到文件中,以便恢复。但是那些用malloc和new函数生成的对象的数据则不同,它们需要Swap空间,因为它们在文件系统中没有相应的“储备”文件,因此被称作“匿名”(Anonymous)内存数据。这类数据还包括堆栈中的一些状态和变量数据等。所以说,Swap 空间是“匿名”数据的交换空间。  

突破128M Swap限制  

经常看到有些Linux(国内汉化版)安装手册上有这样的说明:Swap空间不能超过128M。为什么会有这种说法?在说明“128M”这个数字的来历之前,先给问题一个回答:现在根本不存在128M的限制!现在的限制是2G!  

Swap 空间是分页的,每一页的大小和内存页的大小一样,方便Swap空间和内存之间的数据交换。旧版本的Linux实现Swap空间时,用Swap空间的第一页作为所有Swap空间页的一个“位映射”(Bit map)。这就是说第一页的每一位,都对应着一页Swap空间。如果这一位是1,表示此页Swap可用;如果是0,表示此页是坏块,不能使用。这么说来,第一个Swap映射位应该是0,因为,第一页Swap是映射页。另外,最后10个映射位也被占用,用来表示Swap的版本(原来的版本是 Swap_space ,现在的版本是swapspace2)。那么,如果说一页的大小为s,这种Swap的实现方法共能管理“8 * ( s - 10 ) - 1”个Swap页。对于i386系统来说s=4096,则空间大小共为133890048,如果认为1 MB=2^20 Byte的话,大小正好为128M。  

之所以这样来实现Swap空间的管理,是要防止Swap空间中有坏块。如果系统检查到Swap中有坏块,则在相应的位映射上标记上0,表示此页不可用。这样在使用Swap时,不至于用到坏块,而使系统产生错误。  

现在的系统设计者认为:  

1.现在硬盘质量很好,坏块很少。  

2.就算有,也不多,只需要将坏块罗列出来,而不需要为每一页建立映射。  

3.如果有很多坏块,就不应该将此硬盘作为Swap空间使用。  

于是,现在的Linux取消了位映射的方法,也就取消了128M的限制。直接用地址访问,限制为2G。  

Swap配置对性能的影响  

分配太多的Swap空间会浪费磁盘空间,而Swap空间太少,则系统会发生错误。  

如果系统的物理内存用光了,系统就会跑得很慢,但仍能运行;如果Swap空间用光了,那么系统就会发生错误。例如,Web服务器能根据不同的请求数量衍生出多个服务进程(或线程),如果Swap空间用完,则服务进程无法启动,通常会出现“application is out of memory”的错误,严重时会造成服务进程的死锁。因此Swap空间的分配是很重要的。  

通常情况下,Swap空间应大于或等于物理内存的大小,最小不应小于64M,通常Swap空间的大小应是物理内存的2-2.5倍。但根据不同的应用,应有不同的配置:如果是小的桌面系统,则只需要较小的Swap空间,而大的服务器系统则视情况不同需要不同大小的Swap空间。特别是数据库服务器和Web服务器,随着访问量的增加,对Swap空间的要求也会增加,具体配置参见各服务器产品的说明。  

另外,Swap分区的数量对性能也有很大的影响。因为Swap交换的操作是磁盘IO 的操作,如果有多个Swap交换区,Swap空间的分配会以轮流的方式操作于所有的Swap,这样会大大均衡IO的负载,加快Swap交换的速度。如果只有一个交换区,所有的交换操作会使交换区变得很忙,使系统大多数时间处于等待状态,效率很低。用性能监视工具就会发现,此时的CPU并不很忙,而系统却慢。这说明,瓶颈在IO上,依靠提高CPU的速度是解决不了问题的。  
系统性能监视  

Swap空间的分配固然很重要,而系统运行时的性能监控却更加有价值。通过性能监视工具,可以检查系统的各项性能指标,找到系统性能的瓶颈。本文只介绍一下在Solaris下和Swap相关的一些命令和用途。  

最常用的是Vmstat命令(在大多数Unix平台下都有这样一些命令),此命令可以查看大多数性能指标。  

例如:  
# vmstat 3  
procs memory swap io system cpu  
r b w swpd free buff cache si so bi bo in cs us sy id  
0 0 0 0 93880 3304 19372 0 0 10 2 131 10 0 0 99  
0 0 0 0 93880 3304 19372 0 0 0 0 109 8 0 0 100  
0 0 0 0 93880 3304 19372 0 0 0 0 112 6 0 0 100  
…………  

命令说明:  
vmstat 后面的参数指定了性能指标捕获的时间间隔。3表示每三秒钟捕获一次。第一行数据不用看,没有价值,它仅反映开机以来的平均性能。从第二行开始,反映每三秒钟之内的系统性能指标。这些性能指标中和Swap有关的包括以下几项:  


procs下的w  
它表示当前(三秒钟之内)需要释放内存、交换出去的进程数量。  

memory下的swpd  
它表示使用的Swap空间的大小。  

Swap下的si,so  
si表示当前(三秒钟之内)每秒交换回内存(Swap in)的总量,单位为kbytes;so表示当前(三秒钟之内)每秒交换出内存(Swap out)的总量,单位为kbytes。  
以上的指标数量越大,表示系统越忙。这些指标所表现的系统繁忙程度,与系统具体的配置有关。系统管理员应该在平时系统正常运行时,记下这些指标的数值,在系统发生问题的时候,再进行比较,就会很快发现问题,并制定本系统正常运行的标准指标值,以供性能监控使用。  

另外,使用Swapon-s也能简单地查看当前Swap资源的使用情况。例如:  
# swapon -s  
Filename Type Size Used Priority  
/dev/hda9 partition 361420 0 3  

能够方便地看出Swap空间的已用和未用资源的大小。  

应该使Swap负载保持在30%以下,这样才能保证系统的良好性能。  

有关Swap操作的系统命令  


增加Swap空间,分以下几步:  
1)成为超级用户  
$su - root  

2)创建Swap文件  
# dd if=/dev/zero of=swapfile bs=1024 count=65536  

创建一个有连续空间的交换文件。  

3)激活Swap文件  
#/usr/sbin/swapon swapfile  

swapfile指的是上一步创建的交换文件。 4)现在新加的Swap文件已经起作用了,但系统重新启动以后,并不会记住前几步的操作。因此要在/etc/fstab文件中记录文件的名字,和Swap类型,如:  
/path/swapfile none Swap sw,pri=3 0 0  

5)检验Swap文件是否加上  
/usr/sbin/swapon -s  


删除多余的Swap空间。  
1)成为超级用户  

2)使用Swapoff命令收回Swap空间。  
#/usr/sbin/swapoff swapfile  

3)编辑/etc/fstab文件,去掉此Swap文件的实体。  

4)从文件系统中回收此文件。  
#rm swapfile  

5)当然,如果此Swap空间不是一个文件,而是一个分区,则需创建一个新的文件系统,再挂接到原来的文件系统上。

系统管理进阶-内存管理
内存管理-交换文件与ramdisk虚拟内存是指使用磁盘当作物理内存的扩展,这样可用的内存的大小就相应增大了。内核会将暂时不用的内存块的内容写到磁盘上,然后就可以把这块内存用于其它目的。这些写到磁盘上的内容或许会被淘汰,只有需要用到这些内容时,它们才会被重新读入内存。这些操作对用户来说是完全透明的;Linux下运行的程序只是看到有大量的内存可供使用而并没有注意到这些内存是在哪里的。当然,读写硬盘要比直接使用真实内存慢得多,所以程序就不会象一直在内存中运行的那样快。用作虚拟内存的硬盘部分被称为交换空间(swap space)。 
    Linux能够使用文件系统中的一个常规文件或一个独立的分区作为交换空间。交换分区要快一些,但是交换文件的大小很容易改变,而且无需重分区整个硬盘,当你知道你需要多大的交换空间时,你应该使用交换分区,但是如果你不能确定的话,你可以首先使用一个交换文件,然后使用一段时间,你就能得到你确实需要的交换空间的大小,然后,你就能够创建一个合适大小交换分区。Linux允许同时使用几个交换分区以及/或者交换文件,如果你只是偶尔地另外需要一个交换空间时,你可以在当时设置一个额外的交换文件,而不是重新分区来改变交换分区的大小。 
    现在介绍如何创建交换空间。一个交换文件是一个普通的文件,它的要求是它不能有空洞,并且它是用mkswap来准备的,所以它必须在本地硬盘上。如何创建一个交换文件呢?你可以用如下命令创建一个能用的交换文件: 
#dd if=/dev/zero of=/SwapFile bs=1024 count=2048 
    这样就创建一个2048K字节的交换文件,由于内存页面的大小是4K字节,所以count最好是4的倍数才能完全利用。而交换分区的创建和其他分区的创建是一样的,只是类型不一样而已。 
    创建完交换空间后,就需要用mkswap给交换空间加上一些必要的初始化信息: 
#mkswap /SwapFile 2048 
    此时交换空间还没有被内核作为虚拟内存使用,它现在只是存在而已。使用mkswap的时候必须非常小心,因为它不检查这个文件或分区是否已被别人使用,这样就有可能覆盖到重要的文件以及分区。 
一个已初始化的交换空间必须使用命令swapon命令告诉内核这个交换空间可以被使用了。命令如下: 
#swapon /SwapFile 
如果把相关信息写入/etc/fstab就能启动系统后自动使用交换空间了。 
#swapon –a 
这个命令会把所有列在fstab中的交换空间启动起来。而 
#swapoff 
这个命令则会把swapon –a启动的交换空间移走。 
要看内存的使用情况,可以使用命令: 
#free 
输出的第一行(Mem:)显示出物理内存的使用情况。总和(total)列中并没有显示出被内核使用的内存,它通常将近一兆字节。已用列(used column)显示出已用内存的总和(第二行没有把缓冲算进来)。空闲列(free column)显示了所有未被使用的空闲内存。共享列(shared column)显示出了被几个进程共享的内存的大小;共享的内存越多,情况就越好。缓存列(buffer column)显示出了当前磁盘缓存的大小。已缓冲列(cached column)显示出了已使用的缓存的大小。 
    最后一行(Swap:)显示出了与交换空间相应的信息。如果这一行的数值都是零,表示你的交换空间没有被击活。 
    这里讨论一下交换空间的大小问题:有些人会对你说需要用物理内存的两倍容量来分配交换空间,这种方法是不符合实际的。合适的做法应该是: 估计你某一时刻你所需要的最大的内存容量,也就是在同一时刻你运行的所有程序所需内存的总和,你可以通过同时运行所有的程序做到这一点。 举些实际的例子,运行X系统将需要分配大约8MB内存,gcc需要几兆字节,内核本身要用大约1兆字节、普通的shell以及其它一些工具可能需要几百千字节。粗略的估计一下就能得到个接近的数字,但你必须考虑到最坏的情况,例如有几个人同时使用这个系统,他们都将消耗内存。Free以及ps命令对估计所需的内存容量是很有帮助的。基于上面的计算,你就知道了你将需要总和为多少的内存。所以,为了分配交换空间,你仅需从所需总内存量中减去实际物理内存的容量,你就知道了你需要多少的交换空间。如果你计算出的交换空间容量远远大于你的物理内存(大于两倍以上),你通常需要再买些内存来,否则的话,系统的性能将非常低。 
    上面讲的交换空间是把磁盘空间当内存使用,但是在有些场合,我们需要一个高速的磁盘空间,这个刚好和上面相反,我们可以用RamDisk把物理内存当磁盘使用,以实现这个需求。 
    使用ramdisk是一件很简单的事。首先,需要你的内核支持RamDisk,然后你所需要做的就是格式化一个ramdisk并且把他挂接到一个目录上。可以用: 
#ls -al /dev/ram* 
列出所有可用的ramdisk。这些ramdisk并不抢夺内存,除非进行格式化的一类操作。这里有一个使用ramdisk的例子: 
#mkdir /tmp/ramdisk 
#mke2fs /dev/ram0 
#mount /dev/ram0 /tmp/ramdisk 
    这三个命令将为ramdisk创建一个目录,创建ramdisk文件系统,并且加载这个ramdisk到/tmp/ramdisk.。现在你可以将这个目录象使用其它的目录一样使用。 
ramdisk的默认大小是 4Mb=4096 blocks. 在你进行mke2fs的时候你可以看到你的ramdisk的大小。执行df -k /dev/ram0 你实际用了多少空间: 
#df -k /dev/ram0 
    在系统重新启动的时候,将刷新这个区域,所以不要将任何没有拷贝的数据放在这个区域。如果你对这个目录进行了修改,并且需要保留这些修改,采取一些办法进行备份。 
    那么如何改变 ramdisks 的大小呢?你可以在lilo.conf文件中加入这一行: 
ramdisk_size=10000,这样在你使用lilo命令和重新启动计算机之后,ramdisk的默认大小将会是10M。这是一个/etc/lilo.conf文件的例子: 
boot=/dev/hda 
map=/boot/map 
install=/boot/boot.b 
prompt 
timeout=10 
image=/boot/vmlinuz 
label=linux 
root=/dev/hda1 
read-only 
ramdisk_size=10000 
    当你以模块的形式编译ramdisk时,你可以在加载的时候决定ramdisk的大小。这也可以通过修改/etc/conf.modules 的选项设置来做到。 
options rd rd_size=10000 ,或是在命令行中指定参数给ismod 
insmod rd rd_size=10000 
以下是介绍如何使用这样的模块 
1)卸载ramdisk, 
#umount /tmp/ramdisk 
2)卸载模块(再上一节所提到的过程中自动加载), 
#rmmod rd 
3)加载ramdisk模块并且把它的大校设为20M, 
#insmod rd rd_size=20000 
4)创建一个文件系统, 
#mke2fs /dev/ram0 
5)加载ramdisk, 
# mount /dev/ram0 /tmp/ramdisk 
    在实际应用中,我们可以把RamDisk挂接到web服务器的目录,或者mail服务的目录,以实现快速的反应。

from:http://bbs.chinaunix.net/thread-658754-1-1.html