前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

daweihe

2019-04-09

今天，小编给大家带来的教程为：前嗅ForeSpider脚本教程中，链接抽取的应用场景，以及链接在源码的html标签里写脚本的实战教程。具体内容如下：

一.应用场景

当需要手动添加链接时，可添加链接脚本。

在“链接脚本处”，可能用到的类为extractor 、result、url、grabDoc、dom。

二.链接在源码的html标签里

链接地址可在源码中查找到。在目标网页右键，选择“查看源代码”，键盘点击“ctrl+F”，查找目标链接所在位置。目标链接存在于标签中。

1.链接需要循环

场景：比如翻页等规律相同的一系列目标链接，存在于一个大的ul标签或者div标签里。

示例：获取CSDN首页文章列表链接。

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

在该网页右键选择“查看源文件”，查找第一条链接的链接地址，定位目标数据位置。

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

将该源码粘贴到notepad++中，选择语言为html，搜索目标数据的所在位置“ul”标签的id值。

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

由图可知，列表页文章链接位于每个li中的a标签的href中。

脚本实例：暂无。

2.链接不循环

场景：获取更多链接，链接不像翻页那页具有自增性的规律。

示例：获取该网站更多的招标公告信息。

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

获取更多的招标公告信息，需要点击“更多”按钮。在该网页右键选择“查看源文件”，定位链接所在位置。

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

因<a>标签名，和父级<div>的class属性都在多处存在，因此需要再向上查找节点，直到id为tab2-list的<div>。

脚本实例：

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找，class属性为more的a标签。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href;//拼接完整的链接地址

u.title = "更多";//填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

场景应用源码 html语言教程

daweihe

0 关注 0 粉丝 0 动态

相关推荐

工业边缘计算有哪些应用场景？

边缘计算是一种分布式计算系统架构。在其中，计算资源和应用程序服务可以分布在从数据源到云的通信路径中。边缘可以满足计算需求，因此也孕育而生出工业边缘计算，而工业边缘计算在工业物联网的应用有哪些?设备和生产线的性能一般由性能指标显示，如总体设备效率。基本功能须

84271849 2020-11-20

AI开启全新应用场景，华为云ModelArts Pro打造开发新范式

我们正进入一个万物感知、万物互联、万物智能的时代。机器视觉、AI和5G等前沿科技相互融合,加速智能世界的到来。而机器视觉作为万物感知入口,将随着AI技术的发展开启全新应用场景。11月3日,中国机器视觉展暨机器视觉及工业应用研讨会在深圳拉开帷幕。ModelA

云科技时代 2020-11-03

redis 应用场景

若给定的 key 已经存在，则setnx不做任何动作，返回0。当setnx返回1时，表示获取锁，做完操作以后del key，表示释放锁，如果setnx返回0表示获取锁失败。比如我们要存储用户信息，ID、姓名、电话、年龄、身高，怎么存储？查询时，取出key

middleware0 2020-07-19

一致性HASH算法在分布式应用场景使用

比如redis集群场景下，原本我们分3主3从部署。如果有一种算法，无论遇到扩容、缩容问题，最终受影响面足够小，即只有部分数据可能需要重新落DB，其他还是能正确找到对应缓存机器节点，那这是最好的。

Cheetahcubs 2020-07-05

Rabbitmq应用场景

1）对于数据量大或者处理耗时长的操作，我们可以引入 MQ 实现异步通信，减少客户端的等待，提升响应速度。2）对于改动影响大的系统之间，可以引入 MQ 实现解耦，减少系统之间的直接依赖。1）系统可用性降低：原来是两个节点的通信，现在还需要独立运行一个服务

shenzhenzsw 2020-06-21

ZooKeeper核心原理及应用场景

一个消息通过网络在两个节点之间传递时，网络如果发生故障，发送方并不知道接收方是否接收到了这个消息。有可能是收到消息以后发生了网络故障，也有可能是没有收到消息，又或者可能接收方的进程死了。发送方唯一的确认方法就是再次连接发送消息，并向他进行询问。就是因为这样

MrZhangAdd 2020-06-09

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

web worker的用法及应用场景（转）

首先简单介绍一下什么是web worker。我们都知道在浏览器中javascript的执行是单线程的，页面上的javascript在执行时会阻塞浏览器的响应，这非常影响用户体验，所以ajax应运而生了。ajax的出现使得页面在等待服务器响应的这段时间内不再

stonerkuang 2020-06-04

复杂美吴思进：稳定币最大的应用场景在支付、结算和跨国汇兑

各国政府允许民间发行稳定币迟早会成为趋势，但至于金融机构发行稳定币，我认为成功的概率并不高，而且越是紧密结合区块链技术和原有的业务体制，越容易失败。所以这次摩根大通发行 JPM Coin，我也不太看好。现在市面上大多数的稳定币都依赖于以太坊，转帐费用和支付

pxy 2020-05-25

redis常见应用场景

由于redis访问速度块、支持的数据类型比较丰富，所以redis很适合用来存储热点数据，另外结合expire，我们可以设置过期时间然后再进行缓存更新操作，这个功能最为常见，我们几乎所有的项目都有所运用。Redis set对外提供的功能与list类似是一个列

粗茶淡饭 2020-05-19

redis数据类型及应用场景知识点总结

Redis支持5种数据类型：string（字符串），hash（哈希），list（列表），set（集合）及zset。value不仅可以是字符串，也可以是数字。因为是二进制安全的，所以你完全可以把一个图片文件的内容作为string来存储。Redis的strin

hweiyi 2020-02-14

阿里P8架构师谈：分布式缓存的应用场景、选型比较、问题和挑战

从减轻数据库的压力和提高系统响应速度两个角度来考虑，都会在数据库之前加一层缓存，访问压力越大的，在缓存之前就开始CDN拦截图片等访问请求。而在100k以上的数据中，Memcached性能要高于Redis 。

Cheetahcubs 2020-05-06

5G“新基建”，新场景、新模式

　　自年初以来，中央层面密集出台5G等新型基础设施相关政策，全国各地掀起一股“新基建”建设热潮，5G进入加速发展阶段。5G作为“新基建”之首，同时也是经济社会高质量发展的战略性基础设施，在良好的政策发展环境下，5G将加速各行各业数字化转型进程，催生更多的新

qual0 2020-04-30

redis数据类型及应用场景

value不仅可以是字符串，也可以是数字。因为是二进制安全的，所以你完全可以把一个图片文件的内容作为string来存储。Redis的string可以完全实现目前memcached的功能，并且效率更高。除了提供与 Memcached 一样的get、set、i

枫叶上的雨露 2020-04-23

5G场景应用 20200420

目前京东已经有这个计划，上次网上已经看到有快递小车照片，但是具体实现没说明，估计还在试验阶段。更适合匹配5G模组。在危险处理中，延迟低很重要，可以给监控员最短的事故反应处理时间。

mysteryrat 2020-04-20

Python装饰器详解，详细介绍它的应用场景

装饰器的应用场景。数据的清理或添加:. 函数参数类型验证 @require_ints 类似请求前拦截。数据格式转换将函数返回字典改为 JSON/YAML 类似响应后篡改。为函数提供额外的数据 mock.patch. 在任务中心注册一个任务。注册一个带信号

PythonMaker 2020-04-10

redis常见应用场景

由于redis访问速度块、支持的数据类型比较丰富，所以redis很适合用来存储热点数据，另外结合expire，我们可以设置过期时间然后再进行缓存更新操作，这个功能最为常见，我们几乎所有的项目都有所运用。Redis set对外提供的功能与list类似是一个列

Cheetahcubs 2020-03-06

区块链DAPP 开发入门代码实现场景应用

智能合约是运行在区块链公链上的一种代码。区块链通常被理解为超级账本，账户与账户直接可以通过交易来完成转账，但这种转账区别于传统银行。发生在区块链上的交易，是存储在区块链网络中的所有全节点上的，并且也是公开可查的。以太坊公链是操作系统，EVM是区块链代码的运

pxy 2020-02-23

golang通过context控制并发的应用场景实现

golang 里出现多 goroutine 的场景很常见, 最常用的两种方式就是 WaitGroup 和 Context, 今天我们了解一下 Context 的应用场景。并发执行的业务中最常见的就是有协程执行超时, 如果不做超时处理就会出现一个僵尸进程,

scratlc 2020-01-07

Redis系列之(二)——应用场景

缓存与数据库不一致；if{//检查锁是否超时未释放。//锁是否超时未释放，如果直接del key然后setnx key，当多个客户端使用时就后者就会覆盖前者操作。

qingmuluoyang 2020-01-13

daweihe

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号