一个Node.js的小爬虫

Kakoola

2020-06-28

爬虫其实就是对网页内特定id、class、标签内容的提取，多是循环出来的，对我们爬取非常便利。

1.安装node

node官网下载安装包安装，后在命令行工具中输入node -v查看node安装的版本。

2.实现项目

创建项目并进入

mkdir node-worm && cd node-worm

初始化项目环境，一路回车

npm init

安装依赖

npm install request cheerio --save-dev

在项目根目录创建app.js并写入以下代码

var request = require(‘request‘)
var cheerio = require(‘cheerio‘)
var reqUrl = ‘https://www.cnblogs.com/e-cat/‘
request(reqUrl, function (err, result) {
  if (err) {
    console.log(err)
  }
  let $ = cheerio.load(result.body)
  let list = []
  $(‘#main #mainContent .forFlow .day‘).each((index, element) => {
    let date = $($(`${element.name} .dayTitle a`)[index]).text() || ‘‘
    let title = $($(`${element.name} .postTitle a span`)[index]).text()
    let desc = $($(`${element.name} .postCon .c_b_p_desc`)[index]).text()
    let href = $($(`${element.name} .postTitle a`)[index]).attr(‘href‘)
    let obj = {
      date,
      title,
      desc,
      href,
    }
    list.push(obj)
  })
  console.log(list)
})

其中reqUrl为爬取目标网址，提取的obj即为最终获取的内容结构。

Kakoola

0 关注 0 粉丝 0 动态

相关推荐

一篇文章带你了解JavaScript 数组迭代方法

在数组中的每个元素上一次操作的方法，称为迭代方法。forEach()方法对数组的每个元素执行一次提供的函数。由于2个参数是可选的。同时新数组中的元素为原始数组元素调用函数处理后的值，并按照原始数组元素顺序依次处理元素。map() 不会对空数组进行检测。例1

wikiwater 2020-10-27

一文带你掌握JS高阶编程技巧！

用单独的实例来管理当前事物的相关特征，泛指属性和方法，类似于实现分组的特点，把一个实例的所有特征描述绑定在一个分组里。还有一种基于闭包实现的单例模式称为：高级单例设计模式，在vue/react出来之前，是团队协作最常用的模块化思想，常用来以此模块划分。我们

IdeaElements 2020-08-19

自动化测试1

url=‘E:\\测试\\课件\\Web自动化\\Web自动化课件\\02img\\注册A.html‘

Feastaw 2020-08-17

Element NavMenu导航菜单的使用方法

<el-menu-item index="3" disabled>消息中心</el-menu-item>. <el-menu-item index="4"><a href=&

Sophiego 2020-08-16

浅谈柯里化函数

首先看看柯里化到底是什么？维基百科上说道：柯里化，英语：Currying，是把接受多个参数的函数变换成接受一个单一参数的函数，并且返回接受余下的参数而且返回结果的新函数的技术。看这个解释有一点抽象，我们就拿被做了无数次示例的add函数，来做一个简单的实现。

Kakoola 2020-08-01

实现虚拟DOM

function createElement{ //创建虚拟DOM. function render{ //把虚拟DOM渲染到真实DOM节点。let elementList = [], //保存着一些元素数组，这些元素数组的第一项是父元素，其他项是子元素。

Kakoola 2020-07-29

常用元素操作api之常见鼠标操作（一）

# 步骤：# 1.导入模块# 2.导入动作链条头# 3.设计动作# 4.执行from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionCh

ELEMENTS爱乐冬雨 2020-07-18

element全局设置按钮组件size

引入 Element 时，可以传入一个全局配置对象。该对象目前支持 size 与zIndex字段

sixthelement 2020-07-05

二叉堆和堆排序

二叉堆是一种特殊的二叉树。它是一颗完全二叉树，表示树的每一层都有左侧和右侧子节点，并且最后一层的叶节点尽可能都是左侧子节点，这叫结构特性。二叉堆不是最小堆就是最大堆。最小堆允许快速导出树的最小值，最大堆允许快速导出输的最大值。

ELEMENTS爱乐小超 2020-07-04

三种注册事件方式的封装

//判断当前浏览器是否能支持addEventListener方法,ie9以下不支持。//传统流事件注册，兼容性好，但是无方法监听效果。//解绑事件，使事件只触发一次

ELEMENTS爱乐小超 2020-07-04

06前端css3增加选择器

element[attribute=‘value‘’] 匹配所有attribute属性值为value的元素，设置样式

vavid 2020-06-28

【Selenium】find_element()与find_elements()有什么区别？

Question：find_element()与find_elements()有什么区别？find_elements():查找页面上所有满足定位条件的元素，方法返回值为WebElement对象的列表。我们可以从源码webdriver.py中找到这2个方法的

Feastaw 2020-06-18

element -ui select下拉框label显示多个值

placeholder="请选择优惠券类型"

sixthelement 2020-06-16

临时对象

Element ele = 100； // 只会调用一次构造函数，直接用100来构造ele对象，构造在ele的预留空间中，不会生成临时对象，Func2; // 编译成功，系统会将100转换成一个临时对变量，再传给函数Func2. // noexcept

Wmeng0 2020-06-14

find_elements与find_element的区别

find_element不能使用len，find_elements可以使用len获取元素数量，判断页面有无某个元素，这个方法可以用来断言。如添加用户后，判断是否添加成功。E TypeError: object of type ‘WebEleme

ELEMENTS爱乐冬雨 2020-06-14

Selenium自动化测试工具使用方法汇总

from selenium.webdriver import ActionChains # 该类可执行鼠标动作：双击拖拽等。它主要的意思就是：程序每隔xx检查一次，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出Timeout

云之高水之远 2020-06-14

jquery.validate自定义验证用法实例分析【成功提示与择要提示】

本文实例讲述了jquery.validate自定义验证用法。分享给大家供大家参考，具体如下：。padding: 3px 5px 3px 21px;margin-left: 10px;margin-top: 0px;margin-bottom: 3px;ad

哈喽elements 2020-06-14

Vue + Element table中的某行触发enter事件后，使该行disabled

废话不罗嗦，上硬菜。Disabled:[], // 该行是否禁止编辑。　this.Disabled[index] = true, // 使input不可编辑

Feastaw 2020-06-11

js 调用 angularJs 的方法

var $scope = angular.element.scope(); // 如果先调用 Controller 里面的方法的话$scope.func1;// 改变了值之后还需要调用一下下面的方法, 才可以刷新最新改变的内容$scope.$apply()

阿斌Elements 2020-06-11

selenium3+python自动化14-获取元素属性

5.获取元素的属性值：get_attribute，这里的参数可以是class、name等任意属性

ELEMENTS爱乐冬雨 2020-06-03

Kakoola

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号