Python爬虫——网页上的字符按照我的想法输出
最近学习Python爬虫,"明明是按照步骤做,怎么我会出现好多的问题?"
引言:在网页之中,将爬取的内容输出展示出来,但是往往会出现很多的格式的问题,
如 s = “\n\n\n\n\n\n\n\n 正经的内容\n\n\n\ 又是内容 \n 不要的 \n”
如何将上面不要的字符删除或者提取出需要的呢?
1、提取出需要 正经的内容\n\n\n\ 又是内容 \n 不要的:
s.text[8:-2]; 就是取出第8个字符,到倒数第二个字符。
2、删除左边的 \n
s.rstrip(‘\n‘);
3、删除右边的 字符
s.lstrip(‘\n‘)
4、删除两边的字符
s.strip(‘\n‘).strip(
‘ ‘
); 删除两边的换行以及空格
5、删除特定的字符
s.replace(
‘不要的‘
, ‘a‘);将“不要的”部分内容,用a代替
import
re
# 去除\r\n不要的字符
re.sub(
‘[\r\n不要的字符]‘
, ‘‘, s)
相关推荐
cakecc00 2020-11-06
世事一场大梦 2020-11-17
wangzhaotongalex 2020-10-20
rechanel 2020-11-16
cshanzhizi 2020-10-16
luofuIT成长记录 2020-09-22
周游列国之仕子 2020-09-21
PYTandFA 2020-09-15
taomengxing 2020-09-07
MaggieRose 2020-08-19
kevinweijc 2020-08-18
earthhouge 2020-08-18
yonggeno 2020-08-18
jyj00 2020-08-15
CXsilent 2020-08-12
amberom 2020-08-03
yiyilanmei 2020-08-03
纬纬 2020-07-31
zhuyonge 2020-07-26