python 读取带BOM的utf-8格式文件

柠檬班

2020-05-12

**

UTF有哪些分类？
**

UTF-8分为两种，一种是不带BOM的，一种是带BOM的。其中第一种不带BOM的是标准形式，第二种带BOM的主要是微软的习惯。

**

为什么有BOM的UTF-8？
**
微软在UTF-8中使用BOM（Byte order mark）是因为这样可以将UTF-8和ASCII等编码明确区分开。
windows对于utf-8格式的文件存储默认是带有BOM的格式

**

为什么BOM不受欢迎？
**
因为在UNIX环境下，很多的UNIX程序不认识BOM。主要是在UNIX所有脚本语言首行为#！标示，它依赖于shell解析，而很多shell出于兼容的考虑不检测BOM，所以加进BOM时shell会把它解释为某个普通字符输入导致破坏#！标示。比如很多现代脚本语言，例如python，其解释器本身是能处理BOM的，但是shell卡在这里。
因此我们在linux服务器上读取这些txt文件时，会遇到如下报错：
\xef\xbb\xbf…

**

怎么解决？
**
使用codecs库，将文件转换为utf-8-sig格式

import codecs

with open("xx.txt",‘r‘,‘utf-8-sig‘) as file:
line = file.readlines();
————————————————
版权声明：本文为CSDN博主「樱夕夕」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_21460525/java/article/details/66971225

bom 编程语言 python

柠檬班

0 关注 0 粉丝 0 动态

相关推荐

Web APIs(DOM、BOM)综述

Web APIs 和 JS 基础关联性。API是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。Web API 是浏览器提供的一套操作浏览器功能和页面元素的 API 。

playis 2020-06-07

2020/6/1 BOM模型和DOM模型

　　提示输入框：window.prompt(); 注意：返回值类型是字符串，如果需要计算需要进行类型转换。　　删除定时器：clearInterval();　　location.href="文档所在地址的URL地址"；　　　　　　　　　　

luvhl 2020-06-01

PHP读取文件,解决中文乱码UTF-8的方法分析

本文实例讲述了PHP读取文件,解决中文乱码UTF-8的方法。分享给大家供大家参考，具体如下：。******************************************丑陋的分割线来告诉大家上面的不好的：下面的才是正确的方法哈哈*********

zyyjay 2020-01-22

BOM与DOM

我们已经学习了JavaScript的基本语法，而接下来学习的BOM和DOM就是用这些JS语法与HTML页面进行交互。Window对象表示浏览器窗口，Window对象是客户端JavaScript最高层对象之一，由于window对象是其它大部分对象的共同祖先，

书虫媛 2019-12-30

前端基础之BOM和DOM：

到目前为止，我们已经学过了JavaScript的一些简单的语法。也就是我们还不能制作一些我们经常看到的网页的一些交互，我们需要继续学习BOM和DOM相关知识。DOM 是指文档对象模型，通过它，可以访问HTML文档的所有元素。Window对象是客户端Java

liaoxuewu 2020-01-04

前端基础之BOM和DOM

所有浏览器都支持 window 对象。它表示浏览器窗口。window.innerWidth - 浏览器窗口的内部宽度window.open() - 打开新窗口。浏览器对象，通过这个对象可以判定用户所使用的浏览器，包含了浏览器相关信息。屏幕对象，不常用。警告

SIMONDOMAIN 2020-01-03

BOM与DOM

到目前为止，我们已经学过了JavaScript的一些简单的语法。但是这些简单的语法，并没有和浏览器有任何交互。也就是我们还不能制作一些我们经常看到的网页的一些交互，我们需要继续学习BOM和DOM相关知识。BOM是指浏览器对象模型，它使 JavaScript

luvhl 2019-12-30

前端基础之BOM和DOM

BOM是指浏览器对象模型，它使 JavaScript 有能力与浏览器进行“对话”。DOM是指文档对象模型，通过它，可以访问HTML文档的所有元素。Window对象是客户端JavaScript最高层对象之一，由于window对象是其它大部分对象的共同祖先，在

Lophole 2019-12-30

解决PHP导出CSV文件中文乱码问题

在web系统中经常遇到要导出报表数据，也会用到csv格式，使用utf-8编码导出CSV文件，打开后里边的中文成了乱码，用文本编辑器打开正常，不过排版很乱。Byte Order Mark，微软定义的一种头部结构。为了识别 Unicode 文件，Micros

WFMoonlight 2019-12-02

解决PHP导出CSV文件中文乱码问题

在web系统中经常遇到要导出报表数据，也会用到csv格式，使用utf-8编码导出CSV文件，打开后里边的中文成了乱码，用文本编辑器打开正常，不过排版很乱。Byte Order Mark，微软定义的一种头部结构。为了识别 Unicode 文件，Micros

zuoyanyan 2019-10-23

php批量检测并去除BOM头的代码

去除BOM头解决方法:<?phpini_set; function checkdir { if { while { if { if { // 如果是文件 echo "filename: $basedir/$file &qu

igogo00 2019-10-23

BOM和DOM

到目前为止，我们了界JavaScript的一些简单的语法。但是这些简单的语法，并没有和浏览器有任何交互。也就是我们还不能制作一些我们经常看到的网页的一些交互，我们需要继续学习BOM和DOM相关知识。BOM是指浏览器对象模型，它使 JavaScript 有能

liaoxuewu 2019-10-19

JavaScript = ECMAscript+DOM+BOM

JavaScript 的核心 ECMAScript 描述了该语言的语法和基本对象。DOM 描述了处理网页内容的方法和接口。BOM 描述了与浏览器进行交互的方法和接口。ECMAScript简单地说，ECMAScript 描述了以下内容：语法、类型、语句、关键

arbitatry 2017-03-04

vim 去掉utf bom头

xxd“以16进制模式打开文件:%!xxd-r“将以16进制格式打开的文件返回文本模式编辑所以，先用第一个命令将文件以16进制打开，删除文件开头的EFBBBF，然后再用第二个命令返回文本模式。

xujidong0 2014-01-17

PHP文件轻松快速批量去除BOM文件头（记事本编辑PHP后出错）

在utf-8编码文件中BOM在文件头部，占用三个字节，用来标示该文件属于utf-8编码，现在已经有很多软件识别bom头，但是还有些不能识别bom头，比如PHP就不能识别bom头，这也是用记事本编辑utf-8编码后执行就会出错的原因了。如果已经用VS.NET

drise 2017-11-28

掌握Web API，开发常见的页面交互功能（进阶一）

学习目标:掌握API和Web API的概念掌握常见的浏览器提供的API的调用方式能通过API开发常见的页面交互功能能够利用搜索引擎解决问题Web APIAPI的概念API是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能

huangliuyu00 2019-06-30

【JS基础】DOM，BOM，事件绑定，ajax，跨域，存储

JS基础知识JS-Web-APIJS-Web-API的内容包括。DOMBOM事件绑定ajax请求存储W3C 标准没有规定任何JS基础相关的东西。W3C不管变量类型、原型、作用域和异步，只管定义于浏览器中JS操作页面的API和全局变量。DOMDOM 文档对象

小傻 2019-06-29

JavaScript的组成 | DOM/BOM

》里，我们有说到JavaScript 是由三大部分组成，分别是：核心ECMAScript、文档对象模型-DOM、浏览器对象模型-BOM. DOM中主要关注的就是document，document对象的主要功能就是处理网页内容。DOM0：没有纳入标准，属于初

adeyi 2019-06-29

Linux下给文件添加BOM头

至于BOM是什么，这里就不解释了，百科解释的很详细，BOM - 字节顺序标记。cat report.csv >> report_new.csv需要注意的是：windows记事本默认会给文件添加BOM头，尽管这几个字符正常情况肉眼不可见，但是在程

码中飞翔 2019-06-28

应用程序语言(PHP)导出csv文件乱码问题及解决

给运营同学提供数据支持，需求是导出数据文件，通常就是Excel能打开的、通用的CSV逗号分隔符文件。首先导出无BOM头UTF-8编码的标准csv格式文件，但用Excel打开此csv乱码。文件-导入-CSV，指定UTF8编码、 ,分隔符及 "

puddingpp 2019-06-27

柠檬班

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号