Python二进制串转换为通用字符串的方法

xmwang0

2018-07-23

一个小问题

今天在做一个实验时，需要对一个包含中英文词汇的TXT文件进行读入和整理。

Python代码的编码规则为UTF-8。在读入时，文件的每行是二进制串，形如：

b'heroes\xff.....

在对每行进一步进行处理时，要求处理对象必须为通用字符串，所以：

lineVec = str(line).strip().split('\t')

此时的lineVec的元素类型为string,但输出是仍然是 “b'heros\xff…..” ，仍然无法摆脱二进制标志的影响。然而，尴尬的是，在后边对以lineVec元素作为键的字典进行索引时，只能获得通用字符串的键。所以，每次索引都以KeyError退出。

在多次尝试之后，我发现：二进制串在经过str()函数转化之后，已经将所有的内容都转化成了一个通用的字符串。也就是说，“b'heros\xff……”中的所有字符都是可以用python的字符串处理手段处理的。

给定一个 word=”b'heros”，如果希望得到通用字符串形式的单词”heros”，那么我们可以直接取字符串word的第3至最后一个字母，或将“b'”直接替换掉：

newWord = word[2:-1]
#或
newWord = word.replace("b'",'') #因为单引号是python中表示字符串的特殊功能字符，所以被替换的字

符写作'b''会报错。需要用双引号把单引号括起来。

在用上面的方法把字典键都更新了一遍之后，世界瞬间和谐了。

一些扩充

在解决上边的问题的过程中，搜索了许多相关的解决方法，对python中二进制串与通用字符串之间的转换有了一定的了解。但都是关于纯英语字符串转换的，对上边的中文字符无用。用下面方法转换中文字符串时会出现编码错误。

给定通用字符串 string = ‘a string' , 需要把它转换为二进制串时，可以直接调用字符串的内置方法：

print string
>>>a string

bstring = string.encode('ascii') # encode方法，参数用来指定编码标准
print bstring
>>>b'a string'

string1 = bstring.decode('ascii') # encode的逆，对二进制串进行解码
print string1
>>>a string

在进行文本文件读入和解析时，经常会遇到这样的二进制问题，希望对大家有所帮助。

二进制 python 二进制编码二进制代码 python字符串字符串函数 python函数 string 通用

安科网

Python二进制串转换为通用字符串的方法

xmwang0

xmwang0

相关推荐

Linux软件包管理概述

linux 下以二进制的方式安装 nodejs

PHP字符串和十六进制如何实现互相转换

MySQL主从复制原理以及需要注意的地方

mysql读写分离，这个骚操作，应该给满分

将音频文件转二进制分包存储到Redis的实现方法（奇淫技巧操作）

MySQL高可用之MHA

二进制安装MySQL

记一次mysql小版本升级

关于对象序列化

linux目录结构和文件属性管理

谁说前端不需要懂二进制

基于javascript处理二进制图片流过程详解

php接收二进制流【转】

MySQL数据备份及恢复

Centos目录结构

Kubernetes二进制文件下载链接

MySql--查询优化--预处理语句

MySQL 之数据备份及恢复

C语言位运算符详解

xmwang0