Github上适合编程小白学习的9款「Python爬虫框架」

目前市场上爬虫框架有很多,不同语言不同类型的爬虫框架都有。今天主要给大家安利9款我在学习Python的时候学习研究的几款爬虫框架,希望对大家选择合适的爬虫框架以及业余学习都能有所帮助。

Github上适合编程小白学习的9款「Python爬虫框架」

scrapy 「star:30114」

网络爬虫框架(基于twisted)。大名鼎鼎的爬虫框架,功能强大,乃入门学习的必备良药。支持多种多样的配置特性,唯一可惜不支持分布式的特性。

Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。

pyspider 「star:12291」

pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。

newspaper 「star:7119」

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

portia 「star:6495」

基于Scrapy的可视化的爬虫框架,对于编程经验少的人来说相当适合学习。

cola 「star:1295」

Cola是一个很强大的分布式爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。

fetchman 「star:35」

这个可能知道的人非常少,国人写的爬虫框架,采用grequests来并发请求。看过源代码,写的容易理解,所以对于新手来说很实用。

gain 「star:1720」

使用asyncio来异步爬取的轻量级爬虫框架,代码很容易理解,利于学习。

demiurge 「star:83」

这个框架也非常小众,是一款基于PyQuery的微型爬虫框架。

觉得文章实用大家可尽情收藏、转发,获取更多编程干货欢迎大家关注我的头条号~

相关推荐