前嗅ForeSpider脚本教程-链接抽取:链接在源码的js变量里写脚本
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在源码的js变量里写脚本的实战教程。具体内容如下:
链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于js变量中。
1.链接需要循环
场景:要抽取的一组链接都在源码中出现,集中分布。
示例:获取今日头条热点新闻列表页链接
查看列表页第一条链接,链接地址为“https://www.toutiao.com/group/6637244114360336900/”,在该网页,鼠标右键,选择查看源代码,“ctrl+F”,查找字符串“6637244114360336900”,定位其位置。
观察可知,中文字符都以”\u”开头的字符串表示,显示为unicode编码格式,由“站长工具”在线转编码之后即可展示中文。此外链接地址分割符“/”加了转义符“\”,不过软件已经帮助我们做了转义处理,此处无需担心,直接赋值即可。
将转义后的字符串放置于JSON查看器中(以notepad++的插件“JSON Viewer”为例),则可观察到数据形式为json。
脚本实例:
2.链接不循环
场景:要抽取少数链接,位置分散,如天猫分类页(三级分类)。
实例:暂无。
相关推荐
88274956 2020-11-03
Zhongmeishijue 2020-09-10
runner 2020-09-01
梦的天空 2020-08-25
IdeaElements 2020-08-19
luvhl 2020-08-17
移动开发与培训 2020-08-16
ReunionIsland 2020-08-16
lyqdanang 2020-08-16
NARUTOLUOLUO 2020-08-03
MyNameIsXiaoLai 2020-07-08
星辰的笔记 2020-07-04
csstpeixun 2020-06-28
letheashura 2020-06-26
liaoxuewu 2020-06-26
OldBowl 2020-06-26
北京老苏 2020-06-25
Luffyying 2020-06-25