Python实现把utf-8格式的文件转换成gbk格式的文件

Haopython

2019-04-17

需求：将utf-8格式的文件转换成gbk格式的文件

实现代码如下：

代码如下：

def ReadFile(filePath,encoding="utf-8"):

    with codecs.open(filePath,"r",encoding) as f:

        return f.read()

 

def WriteFile(filePath,u,encoding="gbk"):

    with codecs.open(filePath,"w",encoding) as f:

        f.write(u)

 

def UTF8_2_GBK(src,dst):

    content = ReadFile(src,encoding="utf-8")

    WriteFile(dst,content,encoding="gbk")

代码讲解：

函数ReadFile的第二个参数指定以utf-8格式的编码方式读取文件，返回的结果content为Unicode然后，在将Unicode以gbk格式写入文件中。

这样就能实现需求。
但是，如果要转换格式的文件中包含有一些字符并不包含在gbk字符集中的话，就会报错，类似如下：

代码如下：

UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 4813: illegal multibyte sequence

以上的报错信息的意思是：在将Unicode编码成gbk的时候，不能将Unicode u'\xa0'编码成gbk。

这里，我们需要弄清楚gb2312、gbk和gb18030三者之间的关系

代码如下：

GB2312：6763个汉字

GBK：21003个汉字

GB18030-2000：27533个汉字

GB18030-2005：70244个汉字

所以，GBK是GB2312的超集，GB18030是GBK的超集。
理清了关系之后，我们进一步改进下代码：

代码如下：

def UTF8_2_GBK(src,dst):

    content = ReadFile(src,encoding="utf-8")

    WriteFile(dst,content,encoding="gb18030")

运行后，发现没有报错，可以正常运行。

因为，在GB18030字符集中，可以找到u'\xa0'对应的字符。
此外，还有另外一种实现方案：
需要修改下WriteFile方法

代码如下：

def WriteFile(filePath,u,encoding="gbk"):

    with codecs.open(filePath,"w") as f:

        f.write(u.encode(encoding,errors="ignore"))

这里，我们将Unicode编码（encode）成gbk格式，但是注意encode函数的第二个参数，我们赋值"ignore"，表示在编码的时候，忽略掉那些无法编码的字符，解码同理。

但是，当我们执行后，发现可以成功的将utf-8格式的文件修改成了ansi格式。但，另外发现生成的文件中，每个一行都有一行空行。

这里，可以指定以二进制流的形式写文件，修改后的代码如下：

代码如下：

def WriteFile(filePath,u,encoding="gbk"):

    with codecs.open(filePath,"wb") as f:

        f.write(u.encode(encoding,errors="ignore"))

gbk gbk编码 python函数汉字编码字符集 python utf8 gb2312

Haopython

0 关注 1 粉丝 0 动态

关注关注

使用AJAX实现UTF8编码表单提交到GBK编码脚本无乱码的解决方法

<li><a href="utf8Form.html" rel="external nofollow" rel="external nofollow" rel="ext

learningever 2020-09-19

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

python3 unicod,utf-8,gbk的编码和解码中文显示问题

python3的字符编码让人头疼。这个也不是一篇介绍gbk, utf-8, unicode怎么表示英文，中文字符的基础知识总结。网上有很多类似的文章，目前也不需要升入学习到了解各个bit位表示什么含义。目的：清楚了解为什么在python3不同的编码，解码，

ITxiaobaibai 2020-03-23

python3字符串编码转换

编码转换：1、将文本已以二进制方式读取出来；2、将读取的二进制文本已改文本的编码方式进行解码成Unicode3、然后将解码后的Unicode编码成要转换的编码格式。s_gbk = s_unicode.encode # Unicode转换成gbk模式f =

84590091 2020-02-16

编码和解码

print # unicode --> gbk --> unicode --> gb2312

85271041 2020-02-13

Linux 设置同时支持GBK（GB2312)和UTF-8编码

Apache中决定服务器编码的httpd.conf中AddDefaultCharset决定的，我设置为AddDefaultCharset utf-8，所以服务器默认是utf-8的；AddDefaultCharset utf-8上面有一段注释：。# Spec

Jiajinjin 2009-11-04

IDEA启动tomcat控制台中文乱码

开始以为是IDEA本身或项目setting的编码格式错误导致，后来发现并不是，而是tomcat自身的日志输出问题。把需要修改的乱码log信息，对应的位置进行修改，我的是需要把UTF-8修改为GBK。

zhangxiaocc 2019-10-24

解决ubuntu环境下eclipse打开jar包源码乱码问题

ubuntu环境下，在eclipse中引用windows环境下所开发的jar包，打开源码时，所有的中文注释都成为乱码，原因是由于jar包在开发时，所采用的编码为GBK，而Ubuntu默认是不支持的，所以才会出现乱码。那么，需要怎样来解决呢？可以通过以下两个

心中要有一片海 2012-10-22

centos6英文版中文乱码的全面解决（也可用于其他linux系统）[转]

这是一种临时的使用方法，在不需要安装其他包的情况下应该会有效，适合于主要以中文界面为主，临时切换到英文界面下使用。按下Alt-F2，打开“运行应用程序”对话框。列表的最底部新增加了一个“GBK”。单击选中它，并单击右边的“向上”按钮直到“GBK”位于列表的

eastnow 2012-10-11

ubuntu file encoding

建议以后编程序的时候，遇到默认编码为GB2312的大可以直接使用GBK进行解码为unicode字符串。

赵丹icons逐LJ 2011-05-24

ubuntu中gedit中文乱码

在终端或按alt+f2中输入：gconf-editor,点apps->gedit-2->preferences->encodings,修改auto_detected的值,增加GB2312,gbk,同时把这两者的位置提前到utf-8下面一行

87437616 2011-05-09

关于mysql在linux下乱码问题的解决

mysql的乱码问题一直比较头痛,由于它默认的字符集是latin,在数据库中执行mysql>SHOWVARIABLESLIKE'character_set_%';　　一般我们开发的系统都会用到需要显示中文的情况,网页一般就会设置成GBK,比如页面开头

secondid 2010-07-26

Fedora使用问题六：geditor中文乱码解决

在打开windows分区下的文本文件，和下载下来的文本文件时会出乱码的情况，这种情况一般都是由于字符编码的源因。UTF-8的，所以我们最好把GBK,GB2312,之类的字符编码加上去。步骤是，在终端输入gconf-editor调出gconf-editor。

qiaosym 2010-07-07

让vim在utf-8的local下打开 gbk 文件

如果不指定这一行，则vim只会用当前编码。来打开文件，因为你的 locale 是 UTF-8，而文件是 gbk，所以打开是乱码。一般的，vim打开中文文件时会出现乱码，原因比较复杂，不罗嗦了。下文在网络中广泛流传。vim里面的编码主要跟三个参数有关：enc

shutFuckingup 2010-06-12

Linux 中文乱码

打开vim的配置文件，位置在/etc/vim/vimrc

xujidong0 2013-04-03

python基础字符编码转换

#python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码。#二进制转换为字符串，使用decode，此处二进制的编码格式如果填写错误可能会导致二进制无法转换为字符串，导致程序报错。#python3上默认

JakobHu 2019-11-09

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

CentOS7设置中文字符集

84590091 2020-04-22

字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖]

各种字符编码方式详解及由来-日志-yunlingzhi. 很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为"字节"。等中国人们得到计算机时，已经没

chinesexj 2012-02-16

UTF-8 GBK UTF8 GB2312 之间的区别和关系

是用以解决国际上字符的一种多字节编码，它对英文使用8位，中文使用24为来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也

86981138 2012-03-02

安科网

Python实现把utf-8格式的文件转换成gbk格式的文件

Haopython

Haopython

相关推荐

使用AJAX实现UTF8编码表单提交到GBK编码脚本无乱码的解决方法

ascii、unicode、utf-8、gbk

python3 unicod,utf-8,gbk的编码和解码中文显示问题

python3字符串编码转换

编码和解码

Linux 设置同时支持GBK（GB2312)和UTF-8编码

IDEA启动tomcat控制台中文乱码

解决ubuntu环境下eclipse打开jar包源码乱码问题

centos6英文版中文乱码的全面解决（也可用于其他linux系统）[转]

ubuntu file encoding

ubuntu中gedit中文乱码

关于mysql在linux下乱码问题的解决

Fedora使用问题六：geditor中文乱码解决

让vim在utf-8的local下打开 gbk 文件

Linux 中文乱码

python基础字符编码转换

Oracle字符集的设置

CentOS7设置中文字符集

字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖]

UTF-8 GBK UTF8 GB2312 之间的区别和关系

Haopython