Github上适合编程小白学习的9款「Python爬虫框架」
目前市场上爬虫框架有很多,不同语言不同类型的爬虫框架都有。今天主要给大家安利9款我在学习Python的时候学习研究的几款爬虫框架,希望对大家选择合适的爬虫框架以及业余学习都能有所帮助。
scrapy 「star:30114」
网络爬虫框架(基于twisted)。大名鼎鼎的爬虫框架,功能强大,乃入门学习的必备良药。支持多种多样的配置特性,唯一可惜不支持分布式的特性。
Grab
Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。
pyspider 「star:12291」
pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
newspaper 「star:7119」
Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。
portia 「star:6495」
基于Scrapy的可视化的爬虫框架,对于编程经验少的人来说相当适合学习。
cola 「star:1295」
Cola是一个很强大的分布式爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。
fetchman 「star:35」
这个可能知道的人非常少,国人写的爬虫框架,采用grequests来并发请求。看过源代码,写的容易理解,所以对于新手来说很实用。
gain 「star:1720」
使用asyncio来异步爬取的轻量级爬虫框架,代码很容易理解,利于学习。
demiurge 「star:83」
这个框架也非常小众,是一款基于PyQuery的微型爬虫框架。
觉得文章实用大家可尽情收藏、转发,获取更多编程干货欢迎大家关注我的头条号~