nspider Node 版的轻量级爬虫框架
# 网络爬虫
初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。下载器,用于下载网页内容,并将网页内容返回给蜘蛛。下载器中间件,位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。
xxl-crawler 分布式爬虫框架
Beats 是一款轻量级的数据采集器,采用 Go 语言编写。它集合了多种单一用途数据采集器。这些采集器安装后可用作轻量型代理,从成百上千或成千上万台机器向 Logstash或 Elasticsearch 发送数据。特性轻量 ——Beats 是数据采集的得力工具。如果需要更加强大的处理性能,Beats 还能将数据输送到 Logstash 进行转换和解析。可拓展 ——每款开源采集器都是以用于转发数据的通用库 libbeat 为基石。需要监控某个专用协议?
vscrawler 适合抓取封堵的爬虫框架
北京地铁客流量统计很好奇北京地铁每天的客流量变化,于是写了个爬虫。结果很有意思,每周7天的客流变化都很规律。其他:使用python3爬数据,echart统计图。爬虫的结果直接存到了文件中,因为项目比较小,就不用数据库了。爬虫脚本只是爬昨天的数据的,需要所有的要改一下get_flow_from_html()函数。#需要根据页数调整年份。...然后直接循环跑就行:
健壮的底层库,HTTP 客户端基于 guzzle,dom 解析基于 symfony/dom-crawler 库
finndycloud 开源分布式云采集工具化引擎
# 网络爬虫 # 其他
Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。
ProxyIpPool 是一个爬虫代理 ip 池,主要用途爬取代理 ip ,然后将这些代理 ip 放入池子里进行维护。因为大多数代理 ip 都不太问题稳定,需要我们用程序自行去评测它的一个稳定性和可靠性,从而筛选出可用的代理 ip 持久化到我们的磁盘里。
Douyin-Bot Python 抖音机器人
前段时间工作上需要一些JD信息,我就从网上找了个开源的爬虫框架WebMagic,使用简单,易配置,功能也很强大,当然了也有些网站的数据不适合使用。于是就尝试去看WebMagic的源码,后来又发现了一个源码比较容易解读的爬虫框架XXL-CRAWLER,简单的分析了源码之后,开发自己一套爬虫框架的欲望更加强烈,于是在2017年底的时候就开始了开发,中间断断续续得停了写,写了停。直到最近8月底的时候才算出了一个版本,然后顺势把它放到了Maven公服仓库上。
一款小巧、灵活的Java多线程爬虫框架1.框架简介AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架。AiPa 依赖当下最简单的HTML解析器Jsoup。AiPa 只需要使用者提供网址集合,即可在多线程下自动爬取,并对一些异常进行处理。下载该Jar包导入到你的项目中即可使用。}通过AiPa.newInstance()方法直接创建一个新的AiPa实例,该方法必须要传入 AiPaWorker 接口的实现类。
Ferret 是一个声明式的 Web 爬虫系统,旨在简化网络上的数据提取,以用于 UI 测试、机器学习和分析等等。Ferret 拥有自己的声明式语言,通过抽象出技术细节和底层技术的复杂性,从而更专注于数据本身。
提供Item extractor, 可以明确地声明如何从response解析数据。通过 "ensure_future" and "as_completed" api 提供方便的工作流
cetty 基于事件分发的爬虫框架
GoldDataSpider 网页数据抽取工具
gugu(股估)是适用于金融/投资领域数据分析及量化工程的开源项目,通过对互联网上的公开数据进行采集、清洗和存储,完成了对股票/债券/基金等金融数据的统一调用和分析。其优点是速度快、可定制及高度的可复用性。为了充分发扬开源精神倡导自由软件理念本人开发了gugu,作为开源社区版的金融数据api,我们承诺gugu将永远开源并不做任何限制以提供给广大金融/投资数据分析及量化爱好者自由使用!
Scrapyd 是一个部署和运行 Scrapy 爬虫的应用,它允许使用 HTTP JSON API 部署 Scrapy 项目并控制其爬虫。
去年,做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。Java中JSOUP做HTML解析是最好的工具,没有之一。我们所能访问的网页本身就是一个数据宝藏,天然的对外数据接口。只要我们能拿到网页的Html代码,就可以拿到网站的公开数据。利用JSoup针对直接加载显示数据的网页,也可以轻松拿到Html代码,后面的操作类似JQuery的API,有这类似的DOM操作形式。
安科网(Ancii),中国第一极客网
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号