Python爬虫——网页上的字符按照我的想法输出

JakobHu

2020-03-27

关注关注

最近学习Python爬虫，"明明是按照步骤做，怎么我会出现好多的问题？"

引言：在网页之中，将爬取的内容输出展示出来，但是往往会出现很多的格式的问题，

如 s = “\n\n\n\n\n\n\n\n 正经的内容\n\n\n\ 又是内容 \n 不要的 \n”

如何将上面不要的字符删除或者提取出需要的呢？

1、提取出需要正经的内容\n\n\n\ 又是内容 \n 不要的：

s.text[8:-2]; 就是取出第8个字符，到倒数第二个字符。

2、删除左边的 \n

s.rstrip(‘\n‘);

3、删除右边的字符

s.lstrip(‘\n‘)

4、删除两边的字符

s.strip(‘\n‘).strip(‘ ‘); 删除两边的换行以及空格

5、删除特定的字符

s.replace(‘不要的‘, ‘a‘)；将“不要的”部分内容，用a代替

import re

# 去除\r\n不要的字符

re.sub(‘[\r\n不要的字符]‘, ‘‘, s)

字符 python

JakobHu

0 关注 0 粉丝 0 动态

关注关注

如何用Python清理文本数据？

不是所有数据格式都会采用表格格式。随着我们进入大数据时代，数据的格式非常多样化，包括图像、文本、图形等等。在本文中，将展示如何使用Python预处理文本数据，我们需要用到 NLTK 和 re-library 库。我们这样做的原因是为了避免区分大小写的过程。

cakecc00 2020-11-06

python中strip(),lstrip(),rstrip()函数的使用讲解

（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。）如果strip()的参数为空，那么会默认删除字符串头和尾的空白字符。#这里注意字符串a的两端都有一个空白字符，字符a和n之间也有一个。这两个函数和上面的strip()基本是一样的，参数

世事一场大梦 2020-11-17

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 9评论 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

什么叫做类比，为什么有些 Python 入门教程结构不合理

想必关注未闻 Code的同学或多或少都在网上看过各种各样的 Python 入门教程。这些教程在讲 Python 基础数据结构的时候，一般是按照下面这个模式来讲的：。这个结构虽然说是中规中矩由浅入深，但是它并没有让读者做到类比学习触类旁通。因为这些教程的教

PYTandFA 2020-09-15

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

Python基础---转义字符——Python

字符串中的转义字符。\t 在控制台输出一个制表符，协助在输出文本时垂直方向保持对齐。制表符的功能是在不使用表格的情况下在垂直方向按列对齐文本

kevinweijc 2020-08-18

动态规划（四）——如何实现搜索引擎中的拼写纠错功能？

如何量化两个字符串之间的相似程度呢？有一个非常著名的量化方法，那就是编辑距离。编辑距离指的就是，将一个字符串转化成另一个字符串，需要的最少编辑操作次数。莱文斯坦距离和最长公共子串长度，从两个截然相反的角度，分析字符串的相似程度：。根据回溯算法的代码实现，我

earthhouge 2020-08-18

vim

如果不知道vim需要安装的包名称可以使用以下命令来查询vim的包名称；如果是20h，表示左移20个字符。:s/word1/word2/g：在当前行将word1替换成word2（！！另存文件会自动创建:r [filename]：读取filename指定文件中

yonggeno 2020-08-18

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

关于 JavaScript 字符串的一个小知识

说起字符串，我们再熟悉不过了。接触编程的第一个经典任务就是输出字符串：Hello, world。但是你知道 JavaScript 字符串在计算机里是怎么表示的吗?最简单直观但不太准确的的理解就是，字符串就是由英文字母、数字和标点符号等这些字符组成的序列。

CXsilent 2020-08-12

php 字符串分割函数 str_split,chunk_split

如果 split_length 小于 1，返回 FALSE 。如果 split_length 参数超过了 string 超过了字符串 string 的长度，整个字符串将作为数组仅有的一个元素返回。否则每个字符块为单个字符。var_dump; //产生警告

amberom 2020-08-03

（三）python之字符编码

# 1、打开编辑器就打开了启动了一个进程，是在内存中的，所以，用编辑器编写的内容也都是存放与内存中的，断电后数据丢失。# 2、要想永久保存，需要点击保存按钮：编辑器把内存的数据刷到了硬盘上。# 3、在我们编写一个py文件，跟编写其他文件没有任何区别，都只是

yiyilanmei 2020-08-03

字符串匹配算法

虽然算不上什么好方法，但是非常简单。对于所有的暴力算法，我们应该思考如何进行优化，比如BF算法，当我们遇到不匹配字符的时候，只能从头的下一个字符开始匹配。这样其实做了很多无用的重复工作。二者的思想都是避免无用功的移动。step_good为后移位数；pos1

纬纬 2020-07-31

String、StringBuffer和StringBuilder的区别

String类是不可变类，即一旦一个String对象被创建以后，包含在这个对象中的字符序列是不可改变的，直至这个对象被销毁。一旦通过StringBuffer生成了最终想要的字符串，就可以调用它的toString()方法将其转换为一个String对象.Str

zhuyonge 2020-07-26

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

安科网

Python爬虫——网页上的字符按照我的想法输出

JakobHu

JakobHu

相关推荐

如何用Python清理文本数据？

python中strip(),lstrip(),rstrip()函数的使用讲解

shell模糊匹配与正则详解

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

Golang 中的 Unicode 与 UTF-8

什么叫做类比，为什么有些 Python 入门教程结构不合理

如何使用Grep命令查找多个字符串

C# 正则表达式

Python基础---转义字符——Python

动态规划（四）——如何实现搜索引擎中的拼写纠错功能？

vim

正则表达式常用的字符类

关于 JavaScript 字符串的一个小知识

php 字符串分割函数 str_split,chunk_split

（三）python之字符编码

字符串匹配算法

String、StringBuffer和StringBuilder的区别

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

JakobHu