nodeJs 爬虫路上的技术点

New丶Elements

2019-06-27

关注关注

背景

最近打算把之前看过的nodeJs相关的内容在复习下，顺便写几个爬虫来打发无聊，在爬的过程中发现一些问题，记录下以便备忘。

依赖

用到的是在网上烂大街的cheerio库来处理爬取的内容，使用superagent处理请求，log4js来记录日志。

日志配置

话不多说，直接上代码：

const log4js = require('log4js');

log4js.configure({
  appenders: {
    cheese: {
      type: 'dateFile',
      filename: 'cheese.log',
      pattern: '-yyyy-MM-dd.log',
      // 包含模型
      alwaysIncludePattern: true,

      maxLogSize: 1024,
      backups: 3 }
  },
  categories: { default: { appenders: ['cheese'], level: 'info' } }
});

const logger = log4js.getLogger('cheese');
logger.level = 'INFO';

module.exports = logger;

以上直接导出一个logger对象，在业务文件里直接调用logger.info()等函数添加日志信息就可以，会按天生成日志。相关信息网络上一堆。

爬取内容并处理

superagent.get(cityItemUrl).end((err, res) => {
    if (err) {
      return console.error(err);
    }

    const $ = cheerio.load(res.text);
    // 解析当前页面,获取当前页面的城市链接地址
    const cityInfoEle = $('.newslist1 li a');
    cityInfoEle.each((idx, element) => {
      const $element = $(element);
      const sceneURL = $element.attr('href'); // 页面地址
      const sceneName = $element.attr('title'); // 城市名称
      if (!sceneName) {
        return;
      }
      logger.info(`当前解析到的目的地是: ${sceneName}, 对应的地址为: ${sceneURL}`);

      getDesInfos(sceneURL, sceneName); // 获取城市详细信息

      ep.after('getDirInfoComplete', cityInfoEle.length, (dirInfos) => {
        const content = JSON.parse(fs.readFileSync(path.join(__dirname, './imgs.json')));

        dirInfos.forEach((element) => {
          logger.info(`本条数据为:${JSON.stringify(element)}`);
          Object.assign(content, element);
        });

        fs.writeFileSync(path.join(__dirname, './imgs.json'), JSON.stringify(content));
      });
    });
  });

使用superagent请求页面，请求成功后使用cheerio 来加载页面内容，然后使用类似Jquery的匹配规则来查找目的资源。

多个资源加载完成，使用eventproxy来代理事件，处理一次资源处罚一次事件，所有事件触发完成后处理数据。

以上就是最基本的爬虫了，接下来就是一些可能会出问题或者需要特别注意的地方了。。。

读写本地文件

创建文件夹

function mkdirSync(dirname) {
  if (fs.existsSync(dirname)) {
    return true;
  }
  if (mkdirSync(path.dirname(dirname))) {
    fs.mkdirSync(dirname);
    return true;
  }

  return false;
}

读写文件

const content = JSON.parse(fs.readFileSync(path.join(__dirname, './dir.json')));

      dirInfos.forEach((element) => {
        logger.info(`本条数据为:${JSON.stringify(element)}`);
        Object.assign(content, element);
      });

      fs.writeFileSync(path.join(__dirname, './dir.json'), JSON.stringify(content));

批量下载资源

下载资源可能包括图片、音频等等。

使用Bagpipe处理异步并发参考

const Bagpipe = require('bagpipe');

const bagpipe = new Bagpipe(10);

    bagpipe.push(downloadImage, url, dstpath, (err, data) => {
      if (err) {
        console.log(err);
        return;
      }
      console.log(`[${dstpath}]: ${data}`);
    });

下载资源，使用stream来完成文件写入。

function downloadImage(src, dest, callback) {
  request.head(src, (err, res, body) => {
    if (src && src.indexOf('http') > -1 || src.indexOf('https') > -1) {
      request(src).pipe(fs.createWriteStream(dest)).on('close', () => {
        callback(null, dest);
      });
    }
  });
}

编码

有时候直接使用 cheerio.load处理的网页内容，写入文件后发现是编码后的文字，可以通过

const $ = cheerio.load(buf, { decodeEntities: false });

来禁止编码，

ps: encoding库和iconv-lite未能实现将utf-8编码的字符转换为中文，可能是还对API不熟悉，稍后可以关注下。

最后，附上一个匹配所有dom标签的正则

const reg = /<.*?>/g;

node log4js element

New丶Elements

0 关注 0 粉丝 0 动态

关注关注

nodejs+koa2 实现模仿springMVC框架

环境安装，工具安装及中文自行百度，环境调整好后开始进入正题。Shift+ctrl+p，输入框内输入：launch.json. 参数介绍：name项目名称、version版本号、description项目描述、main项目启动文件、scripts启动快捷设置

boneix 2020-10-21

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 2020-10-15

NodeJS开发人员常见五个错误理解

Nodejs 诞生于 2009 年，由于它使用了 JavaScript ，在这些年里获得了非常广泛的流行。它是一个用于编写服务器端应用程序的 JavaScript 运行时，但是 "它就是JavaScript" 这句话并不是 100% 正

ifconfig 2020-10-14

Ajax获取node服务器数据的完整步骤

因为是要将服务器获取的数据放在网页中所以说对页面的渲染是必要的这里我准备的是 art-template模板。const list = ["百度", "百度官网", "百度游戏", "

学留痕 2020-09-20

如何利用node转发请求详解

vue 项目开发过程中，接口跨域是一个很常见的问题。在开发时候可以用 vue 自带的 proxy 可以轻松解决。生产环境下，前端项目往往是部署在后端项目下，不会存在跨域的问题，接口前缀可以忽略。项目是能正常请求了，可是还需要处理接口问题，即 node 当成

往后余生 2020-09-17

python/golang实现循环链表的示例代码

循环链表就是将单链表的末尾指向其头部，形成一个环。只是增加时，需要考虑空链表增加第一个节点的特殊情况；删除时需考虑删除节点是头/尾节点，和链表中只有一个节点的特殊情况。for i := 0; i < c.lenth; i++ {. if cur ==

kka 2020-09-14

通过Node和Redis进行API速率限制

速率限制可以保护和提高基于API的服务的可用性。如果你正在与一个API对话，并收到HTTP 429 Too Many Requests的响应状态码，说明你已经被速率限制了。这意味着你超出了给定时间内允许的请求数量。你需要做的就是放慢脚步，稍等片刻，然后再

redis 2020-09-07

什么时候使用这些Node框架？Express、Koa...

根据《2018年Node.js网络调查报告》显示，Node.js在很大程度上提高了开发者的生产力，降低了开发成本，提升了应用性能。这是成功采用和部署node.js框架的结果。我们喜欢node.js框架，从Express.js的灵活性，到koa.js的性能。

lzccheng 2020-09-06

拆解Redis Cluster，怎么实现“写安全”这个重要特性？

Redis是非常流行的缓存。在Redis升级到3.0版本后，升级到集群版本，被称之为Redis Cluster。在集群版本中，会将数据分成多份，被保存到多个server中，从而保证集群的水平扩展能力，加之每份数据保存多个副本，从而保证可用性，并且集群版本

soyo 2020-08-31

杂项 ----Node

　　Node是一个基于chrome V8引擎的JavaScript代码运行环境　　--浏览器（软件）能够运行Javascript代码，浏览器就是JavaScript代码的运行环境　　--Node（软件）能够运行Javascript代码，Node就是Java

stonerkuang 2020-08-18

PHP xpath提取网页数据内容代码解析

DOMDocument，DOMXpath，其中初始化 loadHtml一般都会报很多警告，但是并不影响使用，用@屏蔽错误。其中 $node 为 DOMElement 对象。

LxyPython 2020-08-17

浅谈使用nodejs搭建web服务器的过程

什么是 Web 服务器？它只需支持HTTP协议、HTML文档格式及URL，与客户端的网络浏览器配合。大多数 web 服务器都支持服务端的脚本语言等，并通过脚本语言从数据库获取数据，将结果返回给客户端浏览器。目前最主流的三个Web服务器是Apache、Ngi

raksmart0 2020-08-17

Nodejs 与 Golang 的比较：Web 开发人员选择哪个最佳？

全球的开发人员都关注技术趋势，这些技术最终将帮助他们在非常短的时间内设计出优秀的软件。Web 开发是发展最快的领域之一。每个行业都希望通过在线渠道扩展业务，以赢得更多的客户并加强营销。继续向下阅读，以了解有关平台发展的更多信息。此外，移动应用程序的顺利运

Lzs 2020-08-14

Node.js在大前端领域的应用分析

关于 node 的使用已经很久了，使用范围也很广，似乎有前端的地方就有 node，那么来思考一个问题，node 到底是用来干嘛的呢？本文从五个大的方面对该问题进行了解释。本文不仅仅可以应用场景的分析，完全可以把它当做Node.js高级进阶当路线，看看那些你

MrHaoNan 2020-07-31

2020最为关注的前端技术

跨端，IOS,安卓，web。支持C++、C#、Rust、Go、nodejs等语言。

学习web前端 2020-07-27

nodejs mongoose 分页查询

router.post(‘/getArticleList‘, function ( req, res) {. message:‘请求成功‘,page和limit是由前端传过来的，通过req.body来获取，因为是要给前端传所有的数据条数，所以就需要将所有数

80530895 2020-07-05

结合puppeteer和egg.js搭建html转pdf或png的node中间层服务。

后面经过使用链接池的优化，chrome的耗时成功降下来。由于项目比较看重时间损耗，所以最终选择puppeteer。本文将讲述puppeteer的一些优化措施，以及怎么结合egg.js搭建成最终的服务器。

lengyu0 2020-06-28

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

yarn是Facebook公司出品的用于管理nodejs包的一款软件。yarn是为了弥补 npm 的一些缺陷而出现的，建议使用yarnnpm是随同nodejs一起安装的包管理工具。cnpm是淘宝 npm镜像，更快。

YarnSup 2020-06-28

Deno VS Node：Javascript开发人员更喜欢前者的五大原因

为了解决Node的许多缺点，NodeJS的开发者 Ryan Dahl，发布了一个新的运行时刻。笔者也有过同样的反应。在了解其优点之后，笔者更清晰地明白了为什么说Deno正是年后端Javascript开发人员所需要的。相较Node而言，一起看看JavaScr

huanglianhuabj00 2020-06-27

谷粒商城创建Rabbitmq集群(二十六)

:/# rabbitmqctl set_policy -p / ha "^" ‘{"ha-mode":"all","ha-sync-mode":"automatic&

woaishanguosha 2020-06-27

安科网

nodeJs 爬虫路上的技术点

New丶Elements

背景

依赖

日志配置

爬取内容并处理

读写本地文件

批量下载资源

编码

New丶Elements

相关推荐

nodejs+koa2 实现模仿springMVC框架

Node 使用express-http-proxy 做api网关的实现

NodeJS开发人员常见五个错误理解

Ajax获取node服务器数据的完整步骤

如何利用node转发请求详解

python/golang实现循环链表的示例代码

通过Node和Redis进行API速率限制

什么时候使用这些Node框架？Express、Koa...

拆解Redis Cluster，怎么实现“写安全”这个重要特性？

杂项 ----Node

PHP xpath提取网页数据内容代码解析

浅谈使用nodejs搭建web服务器的过程

Nodejs 与 Golang 的比较：Web 开发人员选择哪个最佳？

Node.js在大前端领域的应用分析

2020最为关注的前端技术

nodejs mongoose 分页查询

结合puppeteer和egg.js搭建html转pdf或png的node中间层服务。

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

Deno VS Node：Javascript开发人员更喜欢前者的五大原因

谷粒商城创建Rabbitmq集群(二十六)

New丶Elements