python爬虫(十二) XPath语法
之前学习得是如何进行网络请求,现在开始学习如何进行数据提取
一、选取节点:
在火狐浏览器中,首先要有一个try xpath插件,
例如要找网页中所有得div,就在插件中搜索
就会把所有的div圈出来:
1、/ 就是在根节点下查找元素(直接子元素) 例如:
根节点下没有div,所以数量为0.div为子孙节点,html为子节点,body为html的子节点
2、// :查找所有的子孙节点
3、@ :选取某个节点的属性,例如div下的id属性,选择拥有id的所有div节点:
二、谓语:就是中括号里面的内容,作用是过滤掉一些节点
1、例如:要获取网页中的第一个Div元素
2、获得最后一个div元素
3、获取前两个div元素
4、获取id等于serverTime的input元素
5、模糊匹配
就是找到class等于的值中有fl的div
三、通配符
1、 * :查看节点下所有的元素个数
2、@* :查看拥有属性的div元素
四、选取多个路径
//dd[@class="job_bt"]||//dd[@class="job-adwantage"]
相关推荐
fangjack 2020-06-25
paleyellow 2020-10-25
baifanwudi 2020-10-25
LxyPython 2020-08-17
云之高水之远 2020-06-20
maowenbei 2020-06-10
tiankele0 2020-06-09
Andrewjdw 2020-05-29
zengni 2020-05-29
Alanxz 2020-05-28
yogoma 2020-05-28
freerocker 2020-05-26
andrewwf 2020-05-08
我欲疾风前行 2020-04-30
坚持是一种品质 2020-04-25
Wmeng0 2020-04-07
sunzhihaofuture 2020-03-27