python爬虫使用lxml解析数据编码乱码问题
问题状况:
response = requests.get(url=url, headers=headers).text html = etree.HTML(response) name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0] print(name)
可以正常获取数据,但是结果是
å·²éª?è¯? å®?å?¨ ç?¾ç??
这样子的乱码
解决方法:
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode(‘ISO-8859-1‘).decode(‘UTF-8‘)
这边的UTF-8根据网页编码情况而定
看网页编码情况
F12
相关推荐
我欲疾风前行 2020-04-30
learnpy 2020-04-26
RuoShangM 2020-03-23
swiftwwj 2020-02-16
Kwong 2020-01-12
程松 2020-01-01
hilary0 2020-01-03
猛禽的编程艺术 2019-12-31
pythonxuexi 2019-12-20
wklken的笔记 2019-12-17
YGLsmile 2019-12-06
LodbkMi 2019-12-02
爱好HtmlCssJs 2019-11-25
zhaoxiaoheng 2019-11-17
四叶草 2019-11-11
loverlucky 2019-05-10
beichenyx 2019-04-15
MemoryBuffer 2017-08-30
乐想屋 2019-07-01