Github上适合编程小白学习的9款「Python爬虫框架」

灬扫地僧

2018-11-22

关注关注

目前市场上爬虫框架有很多，不同语言不同类型的爬虫框架都有。今天主要给大家安利9款我在学习Python的时候学习研究的几款爬虫框架，希望对大家选择合适的爬虫框架以及业余学习都能有所帮助。

Github上适合编程小白学习的9款「Python爬虫框架」

scrapy 「star：30114」

网络爬虫框架(基于twisted)。大名鼎鼎的爬虫框架，功能强大，乃入门学习的必备良药。支持多种多样的配置特性，唯一可惜不支持分布式的特性。

Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。

pyspider 「star：12291」

pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。

newspaper 「star：7119」

Newspaper可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。

portia 「star：6495」

基于Scrapy的可视化的爬虫框架，对于编程经验少的人来说相当适合学习。

cola 「star：1295」

Cola是一个很强大的分布式爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

fetchman 「star：35」

这个可能知道的人非常少，国人写的爬虫框架，采用grequests来并发请求。看过源代码，写的容易理解，所以对于新手来说很实用。

gain 「star：1720」

使用asyncio来异步爬取的轻量级爬虫框架，代码很容易理解，利于学习。

demiurge 「star：83」

这个框架也非常小众，是一款基于PyQuery的微型爬虫框架。

觉得文章实用大家可尽情收藏、转发，获取更多编程干货欢迎大家关注我的头条号~

python python爬虫框架网页框架

安科网

Github上适合编程小白学习的9款「Python爬虫框架」

灬扫地僧

scrapy 「star：30114」

Grab

pyspider 「star：12291」

newspaper 「star：7119」

portia 「star：6495」

cola 「star：1295」

fetchman 「star：35」

gain 「star：1720」

demiurge 「star：83」

灬扫地僧

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

灬扫地僧