Centos下文本文件格式转码

最近遇到服务器网站的目录下的所有文件的编码全是gb2312,直接用cat或者vim打开显示都是乱码,网页显示出来当然也全是乱码,所以要解决怎么把目录下的所有文件(包括子文件夹里的文件)由gb2312转码成utf-8的问题。网上一顿搜,总共用了三种方法,最后终于把问题解决了。

第一种方法是利用vi编辑器,打开需要转码的文件。

:set fileencoding

这样可以查看文件当前的编码格式。

:set fileencoding=utf-8

说这样能把当前的文件转码成utf-8。但是失败了,直接打开还是显示乱码,更别说浏览器浏览的页面了。而且即使能转码成功,站点目录下的文本文件那么多,不可能一个个挨个打开然后这样设置吧,工作量巨大。

第二种方法是利用iconv。iconv系统默认就已经安装了的。通过命令:

iconv -f gb2312 -t utf-8 abc.html

这样确实把abc.html的编码转换成了utf-8。这样是将转换后的文本显示在了终端上,也可以:

iconv -f gb2312 -t utf-8 abc.html -o abc.html

用转码后的文件覆盖原文件,毕竟这才是最后想达到的目的。

 好了,现在就可以对整个目录下(包括子目录下)的所有文本文件进行转码了:

find -type f -name "*.html" -exec iconv -f gb2312 -t utf-8 {} -o {} \;

通过-exec将find命令的每个结果带入后面iconv的{}内,转换css和javascript文件类似。但是悲剧的是输出很多错误提示。大概就是非法输入,也就是很多html文件里面的字符不对,用iconv转码出现错误。寻思大概不是所有的html文件的编码都是gb2312,所以把-f gb2312这个参数去掉,变成这样:

find -type f -name "*.html" -exec iconv -t utf-8 {} -o {} \;

 但是遗憾的是错误依旧。所有用iconv这种办法还是行不通。

第三种方法是用enca。Centos默然没有安装enca,先下载然后安装:

wget http://pkgs.repoforge.org/enca/enca-1.10-1.el6.rf.x86_64.rpm

 安装:

rpm -ivh enca-1.10-1.el6.rf.x86_64.rpm

enca的用法:
enca -L zh_CN file    #查看file的编码格式
enca -L zh_CN -x UTF-8 file   #将file转换成utf8的编码格式
enca -L zh_CN -x UTF-8 file1 file2   #转换之后存成file2文件,不覆盖file1
好了,接下来就是将目录下的所有文本文件转成成utf8格式: 

find -type f -name "*.html" -exec enca -L zh_CN -x UTF-8 {} \;

这样转换以后发现只有一两个文件显示原文件由于未知格式转码失败,其它的的html文件都转码成功了,哈哈。接下来就是将htm,css,js后缀的文件也用同样的办法进行转码就行了。哎,问题可算解决了。

相关推荐