Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

testxia

2018-10-15

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

作者 | veelion

责编 | 胡巍巍

Python2的字符串有两种：str和Unicode，Python3的字符串也有两种：str和Bytes。Python2的str相当于Python3的Bytes，而Unicode相当于Python3的str。

Python2里面的str和Unicode是可以混用的，在都是英文字母的时候str和unicode没有区别。

而Python3严格区分文本（str）和二进制数据（Bytes），文本总是Unicode，用str类型，二进制数据则用Bytes类型表示，这样严格的限制也让我们对如何使用它们有了清晰的认识，这是很棒的。

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

Python2 和 Python3 的区别

通过以下代码我们认识以下Python2和Python3的字符串混用情况：

# Python2中：In [1]: 'a' == u'a'Out[1]: True
In [2]: 'a' in u'a'Out[2]: True
In [3]: '编程' == u'编程'/usr/local/bin/ipython:1: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal#!/usr/bin/pythonOut[3]: False
In [4]: '编程' in u'编程'---------------------------------------------------------------------------UnicodeDecodeError Traceback (most recent call last)
&lt;ipython-input-4-7b677a923254&gt; in &lt;module&gt;()
----&gt; 1 '编程' in u'编程'
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 0: ordinal not in range(128)
# Python3中：
In [1]: 'a' == b'a'Out[1]: False
In [2]: 'a' in b'a'---------------------------------------------------------------------------TypeError Traceback (most recent call last)
&lt;ipython-input-10-ca907fd8856f&gt; in &lt;module&gt;()
----&gt; 1 'a' in b'a'
TypeError: a bytes-like object is required, not 'str'

以上代码可以看到，Python2中str和Unicode在都是ASCII码时混用没区别，因为Unicode的ASCII区域的值跟str的ASCII是一样的；而对应非ASCII区域（比如中文），二者又不一样了。

可以看到Python2抛出了Unicode Decode Error的异常，相信这也是很多人处理文本时遇到过的错误；‘编程’在str类型时长度是6，而在Unicode时是2。不同字符的不同表现，让Python2的str和Unicode显得扑朔迷离。

在Python3中，严格区分了str和Bytes，不同类型之间操作就会抛出Type Error的异常。

上面用示例阐述了Python2和Python3中字符串的不同，下面主要讲Python3中的字符串。

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

str和bytes之间的转换

一图胜千言：

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

str和bytes的相互转换

str.encode(‘encoding’) -> bytes

bytes.decode(‘encoding’) -> str

Encoding指的是具体的编码规则的名称，对于中文来说，它可以是这些值： ‘utf-8’, ‘gb2312’, ‘gbk’, ‘big5’ 等等。

不知道你有没有注意到上图中str矩形要比Bytes矩形短，表示同样的内容，str的长度要小于或等于Bytes的长度，你可以考虑一下原因（参考Unicode、UTF-8的编码规则）。

下面看看具体代码理解一下str和Bytes的相互转换：

In [16]: a = 'T恤'In [17]: a
Out[17]: 'T恤'In [18]: len(a)
Out[18]: 2In [19]: b = a.encode('utf8')
In [20]: b
Out[20]: b'T\xe6\x81\xa4'In [21]: a == b
Out[21]: FalseIn [22]: c = a.encode('gbk')
In [23]: c
Out[23]: b'T\xd0\xf4'In [24]: b == c
Out[24]: FalseIn [25]: a == c
Out[25]: False

上面str和Bytes之间的转换是针对文本内容的，要是其它二进制内容（比如，图片）时，Bytes就不能decode成str了，看以下代码的异常：

In [29]: img = open('str-bytes.jpg', 'rb').read()
In [30]: type(img)
Out[30]: bytes
In [31]: img.decode('utf8')
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
&lt;ipython-input-31-c9e28f45be95&gt; in &lt;module&gt;()----&gt; 1 img.decode('utf8')UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

因为图片中的二进制数据不符合文本数据的UTF-8编码规则。

上面获得图片数据时，我们用到了open()来读取文件，文件存储的无非是文本和二进制这两种格式，读写文件时也有分清楚编码：

In [32]: open('z.txt', 'w').write('T恤')
Out[32]: 2In [33]: open('z.txt', 'w').write(img)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
&lt;ipython-input-33-4a88980b3a54&gt; in &lt;module&gt;()
----&gt; 1 open('z.txt', 'w').write(img)
TypeError: write() argument must be str, not bytes
In [34]: open('z.txt', 'wb').write(img)
Out[34]: 12147

读写二进制数据（如图片）时，要加’rb’参数，b代码Binary（二进制）。读写文本数据时，一般加’b’,open()会自动转换Bytes到str。

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

总结一下

Python3里面的str是在内存中对文本数据进行使用的，Bytes是对二进制数据使用的。

str可以encode为Bytes，但是Bytes不一定可以decode为str。实际上Bytes.decode(‘latin1’)可以称为str，也就是说decode使用的编码决定了decode()的成败，同样的，UTF-8编码的Bytes字符串用GBK去decode()也会出错。

Bytes一般来自网络读取的数据、从二进制文件（图片等）读取的数据、以二进制模式读取的文本文件(.txt, .html, .py, .cpp等)。

作者：veelion，具有十年开发经验，主要使用Python、C++语言，从事网络爬虫、搜索引擎、自然语言理解处理等领域的研发工作。

声明：本文为作者投稿，版权归对方所有。

2018 AI开发者大会

◆AI工程师必备大会◆

2018 AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度盛会！我们只讲技术，拒绝空谈！

这里有10场技术专题论坛：计算机视觉、数据分析、机器学习、知识图谱、智慧金融、智能驾驶、语音技术、智慧医疗、机器学习工具、自然语言处理。

还有15+硅谷实力讲师团、80+AI领军企业技术核心人物、100+技术&大众实力媒体、1500+AI专业开发者

点击下方「海报」，快速获取大会更多信息，并获得最低折扣票！

Python 3 字符串中的 STR 和 Bytes 究竟有什么区别？

点击“阅读原文”，也可立即报名。

编程语言 python python字符串 bytes

testxia

0 关注 0 粉丝 0 动态

相关推荐

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 2020-11-16

学习Python：脑筋急转弯和其他有趣技巧

而咨询和研讨会提供商353Solutions的首席执行官Miki Tebeka却不是这样，当疫情开始后，他开始编写Python练习书。Tebeka说他已经使用Python多年，目前正在教授有关编程语言的讲习班。Tebeka表示，参与Twitter很容易，有

cakecc00 2020-11-15

使用开源可视化工具来理解你的Python代码

VizTracer 工具可以可视化并跟踪 Python 代码，让你可以更深入地了解其工作原理。随着 Python 项目变得越来越大、越复杂，理解起它来就变得充满挑战性。即使是你自己独自编写了整个项目，也不可能完全知道项目是如何工作的。为了能更好的理解你的代

千锋 2020-11-15

Python之父Guido Van Rossum宣布加入微软

在从 Dropbox 退休一年后，64 岁的 Python 之父吉多 · 范罗苏姆宣布复出并加盟微软。然而，今天看来他的退休之旅已经结束。van Rossum 表示，他加入微软后，将致力于「使用户更好地使用 Python」。微软发言人表示欢迎 van R

JakobHu 2020-11-14

Python之父，现在成为微软打工人

Python之父，现在成了微软的打工人。没错，全世界程序员们最喜欢的编程语言的创造者，自述耐不住退休生活的寂寞，重返岗位发光发热。又为什么选择微软？几个小时前，Guido Van Rossum本人发推宣布了这个消息，他说：「退休生活太无聊了，我决定加入微软

guangcheng 2020-11-13

2020年11月编程语言排行：C、Python、Java

2020年11月编程语言排行：C、Python、Java，9-20名也有不同程度的变化：R语言、Perl 和 Go 语言名次都有大幅提升，分别为9名、12名和13名;Swift、Ruby、Delphl/Object Pascal 和 Objective-

xirongxudlut 2020-11-10

GitHub 上适合新手的开源项目（Python 篇）

随着 Python 语言的流行，越来越多的人加入到了 Python 的大家庭中。为什么这么多人学 Python ？我要喊出那句话了：“人生苦短，我用 Python！”，正是因为语法简单、容易学习，所以 Python 深受大家喜爱。Python 初学者在迈过

solarLan 2020-11-09

TIOBE 11月编程语言榜单出炉，Python势不可挡，超越Java！

TIOBE索引自开始以来到今天已有将近20年前之久，是首次出现Java和C语言不再占据前两名的位置。C语言仍然是第一，但现在是Python占据了第二的位置。有人说，Python最近的流行度激增是因为数据挖掘、AI和数值计算等领域的蓬勃发展。我认为，Pyth

pythonxuexi 2020-11-08

属于新十年的开发语言：Go语言可能很快会取代Python

30年前，Python首次亮相，它花了20年才得到开发者的赞赏。如今，它已经成为开发者第二喜爱的语言。尤其是在过去五年里，Python用户激增，成为机器学习和数据科学开发者的首选语言。在未来几年里，Python在这些领域的主导地位必然是很难被动摇的。但与较

文山羊 2020-11-07

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

上世纪90年代初，Python面世了。近30年来，关于它的“炒作”一直没有少过。当然，编程界花了至少20年的时间才认识到它，但自那以后，它的流行程度远远超过了C、C#、Java甚至Javascript。尽管Python目前在数据科学和机器学习领域，以及某些

susmote 2020-11-07

编程语言排行榜：Python 排名第二，首次领先于 Java

Tiobe 这么多年以来发布的指数中，29 岁的 Python 首次超过了 25 岁 Java，成为第二受欢迎的编程语言。在最新的 Tiobe 指数中，数据科学和机器学习项目的首选语言 Python，现在排名仅次于 C 语言，排在第二位，将 Java

wuShiJingZuo 2020-11-05

TIOBE 11月榜单：Python挤掉了Java！

根据Tiobe之最新编程语言排名。Java语言的流行度在本月持续下降，而Python语言正式登上世界第二大语言的宝座。若Python真的超越了Java，那将是Tiobe编程排行榜在创立以来最大的变化，在知道该排名从2001年开始，Java一直占据前两名未变

Pythonjeff远 2020-11-06

Python在下个十年依然重要吗？

愚者多怨，仁者不言，生活中就是会有很多爱唱反调的人，但不管怎么说Python 在接下来十年仍然会很重要。“人红是非多”，Python是一门很棒的编程语言，虽然有许许多多的批评，依旧挡不住它红火的势头。一个东西之所以能流行必然有它的过人之处，那这些批评是对的

jacktangj 2020-11-04

TIOBE 11 月榜单：Python 挤掉 Java，成功跃至第二

TIOBE 公布了 2020 年 11 月的编程语言排行榜。Python 已成功跃居榜单第二名，本月排名率为 12.12%; Java 被挤到第三位，排名率降至 11.68%。自有 TIOBE 榜单以来，C 和 Java 之前一直占据着前两名的位置。然而

lousir 2020-11-04

PHP常量DIRECTORY_SEPARATOR原理及用法解析

在 Windows 中，斜线(/)和反斜线(\)都可以用作目录分隔符，在linux上路径的分隔符是"/"。在程序本地运行很正常，上传到服务器后，发现图片没有显示出来，图片链接是绝对路径 var/，而且当中带有 \ 但是我记得这个路径已经

Noneyes 2020-11-10

世界上很好玩的6种表情符号编程语言

谁能想到我们最喜欢的表情符号可以用来设计新的编程语言?聪明有才华的人已经想象并开发出了成熟的编程语言，我们可以用它来编写表情符号和表情符号。这些基于表情符号的语言大多是深奥的编程语言，称为esolang。然而，这些语言相对来说比其他语言更容易理解。Esol

ailxxiaoli 2020-11-16

编程语言TOP10！该如何选择适合自己的？

编程领域大约有700种代码语言。理解编程语言的重要性以及其如何影响需要执行的具体任务至关重要。一篇文章穷尽700 种语言不现实，也没有意义。因此，笔者挑选出了时下最热门的原因，在本文中一一分析其特征、优缺点和发展方向，并确定其是否有学习价值。根据设计，C

chensen 2020-11-14

JetBrains 发布 Kotlin 桌面 UI 框架，共享 Android UI 代码

日前，软件开发厂商 JetBrains 发布了 Kotlin 桌面 UI 框架 Jetpack Compose for Desktop，可应用在 Windows、macOS、Linux/x86，目前处于 Alpha 版本。Jetpack Compose

Nostalgiachild 2020-11-13

泛型和元编程的模型：Java, Go, Rust, Swift, D等

在程序设计的时候，我们通常希望使用同样的数据结构或算法，就可以处理许多不同类型的元素，比如通用的List或只需要实现compare函数的排序算法。在本文中，我将带你领略不同语言中的泛型系统以及它们是如何实现的。我将从C这样的不具备泛型系统的语言如何解决这个

zhangxiafll 2020-11-13

testxia

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号