python爬虫爬取github所有follwers初级版

Onioncy

2019-06-27

这几天我很焦虑，受不了那些先follow我，等我follow回去后又unfollow的人，因为是他们先follow我的，我出于人道主义想着互粉一下的，结果这么对我，太不厚道了。github又不像微博那样有互粉标志，这真的整得我很心烦，于是想着写一个爬虫，把这些“坏人”揪出来~
第一步，当然是放出代码啦，代码放在我的github上，欢迎给star:

https://github.com/laurel-he/...

我是一个python初学者，完全小白，所以只能用比较蠢的方法来扒，以下是我的步骤：
1 扒取整个页面

# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'https://github.com/laurel-he?tab=followers'
req = requests.get(url=target)
fo = open('1.txt', "ab+")        
fo.write((req.text).encode('UTF-8'))  
fo.close()

以上代码可以将整个文件的html扒取下来，接下来找到用户，在follower里面随便找到一个用户，在刚才生成的txt文件中搜索，然后就可以得到如下匹配：

data-octo-dimensions="link_type:self".href="/(.?)"

可以直接匹配出用户名。
2 根据正则获取匹配的用户
刚才已经把整个页面扒取下来了，代码放在spider/follwers/url.py，txt文件效果如下：

python爬虫爬取github所有follwers初级版

但是我想要获取的是所有follwer，之前已经得到了对应的正则表达式，那么得到所有的follwer很容易，最终代码如下：

# -*- coding:UTF-8 -*-
import requests
import re
if __name__ == '__main__':
target = 'https://github.com/laurel-he?tab=followers'
req = requests.get(url=target)
context = req.text
patt = re.compile(r"data-octo-dimensions=\"link_type:self\".*href=\"/(.*?)\"")
ch = patt.findall(req.text)
fo = open('flower.txt',"ab+")
for i in ch:
    line = str(i) + "\n"
    fo.write((line).encode('UTF-8')+b'\r\n')
fo.close

以上代码可以直接扒取所有follwers，但是出现了两遍，因为我这个表达式每个名字会匹配到两次，下一版本会更换正则表达式，先将就用吧，然后如法炮制扒取第二页第三页，只需要更改链接地址，加上page就可以，同时也可以把文件写入方式变成追加方式，或者干脆每次都新建一个文件，无所谓，总之最终将所有用户扒取下来。按照同样的方式扒取所有的自己follwing的用户。
这里注意的是，代码里一定要加上换行！换行符不加就是一团乱麻，啥也看不清。
换行符添加后不成功的话试试加上'r'，也许就能成功了；
还是不成功的话看看报错是不是这个样子滴：

python爬虫爬取github所有follwers初级版

是的话加上b方法，转化成byte~
3 接下来是最傻最骚的操作-对比
想要找出来那个没有follow自己的人，只能进行对比，我目前用了一个很傻的办法就是新建一个excel文件，按照列粘贴所有数据，然后按照升序或降序排行（两列排列方式要一样），然后肉眼来对比！！！

python爬虫爬取github所有follwers初级版

其实我还是觉得我要瞎了，但是真的比起一个个看好多了，以后继续想更好的办法，总之我是揪出来那个坏人了。。。但是为了尊重人家隐私权，好吧，就这样吧，我也不能做啥。

python爬虫 python

安科网

python爬虫爬取github所有follwers初级版

Onioncy

Onioncy

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

可能是最全的反爬虫及应对方案

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Python爬虫入门教程！手把手教会你爬取网页数据

Python快速上手爬虫的7大技巧

只听说过用Python做爬虫，Java程序员笑了！

快速指南：如何创建基于Python的爬虫

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

python爬虫一般用什么框架?六大Python框架

python爬虫使用lxml解析数据编码乱码问题

如何用一行代码让gevent爬虫提速100%

用urllib库几行代码实现最简单爬虫

Python爬虫初学-urllib3

python系统学习4——多个爬虫测试案例

scrapy 管理部署的爬虫项目的python类

Python简易爬虫+图形化界面

python爬虫beautifulsoup查找定位Select用法

Python爬虫 - scrapy

Onioncy