[Python] 网络爬虫
头元素信息:
<title>:文档标题,只有一个
<base>:默认链接
<link>:文档与外部资源关系,常用于链接样式表CSS
<style>:样式
<meta>:元数据,页面描述,关键字,文档作者等
<script>:客户端脚本,如JavaScript
获取网页:requests包
http请求方式:
get:90%以上
post
import requests r = requests.get(url = ‘https://www.baidu.com/s‘,params={‘wd‘:‘金正恩元帅‘},timeout=0.1) #返回值 print(r) print(type(r)) #网址 print(r.url) #网页编码 print(r.encoding) #网页源码 print(r.text) #头域,返回字典 print(r.headers)
源码解析:BeautifulSoup包
分析文档树
子节点:.content
相关推荐
CycloneKid 2020-10-27
jling 2020-09-17
fengling 2020-08-15
我欲疾风前行 2020-06-18
我欲疾风前行 2020-06-04
athrenzala 2020-05-30
zengni 2020-05-29
sunzhihaofuture 2020-05-17
hilary0 2020-05-15
hilary0 2020-05-04
hilary0 2020-05-03
fangjack 2020-04-22
knightwatch 2020-04-16
宿舍 2020-03-06
四叶草 2020-02-15
oXiaoChong 2020-02-14
四叶草 2020-01-30