前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

tanjiayq

2019-07-01

今天，小编给大家带来的教程为：前嗅ForeSpider脚本教程中，链接抽取的应用场景，以及链接在源码的html标签里写脚本的实战教程。具体内容如下：
一.应用场景
当需要手动添加链接时，可添加链接脚本。
在“链接脚本处”，可能用到的类为extractor 、result、url、grabDoc、dom。
二.链接在源码的html标签里
链接地址可在源码中查找到。在目标网页右键，选择“查看源代码”，键盘点击“ctrl+F”，查找目标链接所在位置。目标链接存在于标签中。
1.链接需要循环
场景：比如翻页等规律相同的一系列目标链接，存在于一个大的ul标签或者div标签里。
示例：获取CSDN首页文章列表链接。
前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

在该网页右键选择“查看源文件”，查找第一条链接的链接地址，定位目标数据位置。
前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

将该源码粘贴到notepad++中，选择语言为html，搜索目标数据的所在位置“ul”标签的id值。
前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

由图可知，列表页文章链接位于每个li中的a标签的href中。
脚本实例：暂无。
2.链接不循环
场景：获取更多链接，链接不像翻页那页具有自增性的规律。
示例：获取该网站更多的招标公告信息。
前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

获取更多的招标公告信息，需要点击“更多”按钮。在该网页右键选择“查看源文件”，定位链接所在位置。
前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

因"<a>"标签名，和父级<div>的class属性都在多处存在，因此需要再向上查找节点，直到id为tab2-list的<div>。
脚本实例：

var div = DOM.FindId("tab2-list");//先查找div
var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找，class属性为more的a标签。
url u;
u.urlname = "http://www.bgpc.gov.cn"+a.href;    //拼接完整的链接地址
u.title = "更多";    //填写title
u.entryId = CHANN.id;
u.tmplId = 2;
RESULT.AddLink(u);

源码场景应用 html语言

安科网

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

tanjiayq

tanjiayq

相关推荐

Java+Linux，深入内核源码讲解多线程之进程

java Activiti工作流引擎 websocket即时聊天发图片文字好友群组 SSM源码

为Linux的cp和mv命令添加进度条

彻底搞懂Node.js中的Require机制

Vue源码中值得学习的方法

SpringBoot外化配置源码解析：综合实战演示参数及配置

从Linux源码看Socket(TCP)的Listen及连接队列

Redux源码解析系列 (二)-- 牛鼻的createStore

Spring源码之Bean实例化基本原理

从Linux源码看Socket(TCP)的Bind

Vue进阶面试必问，异步更新机制和nextTick原理

通过源码理解Rarp协议（基于linux1.2.13）

重新认识Typescript | Vue3源码系列

Linux下Python3.6的安装及避坑指南

源码分析C++的string的实现

干货ReentrantLock非公平锁源码分析

学会反射后，我被录取了！

搭建一对一直播平台，选择直播系统源码，这几点不容忽视

关于Redis网络模型的源码详析

koa中间件核心（koa-compose）源码解读分析

tanjiayq