Python数据可视化：Python大佬有哪些？

石山下

2018-11-30

有态度地学习

之前讲了代理池以及Cookies的相关知识，这里针对搜狗搜索微信公众号文章的爬取，将它俩实践一下。

在崔大的书里面，他是用代理IP来应对搜狗的反爬措施，因为同一IP访问网页过于频繁，就会跳转验证码页面。

不过时代在进步，搜狗搜索的反爬也在更新，现在它是IP加Cookies双重把关。

01 网页分析

Python数据可视化：Python大佬有哪些？

获取微信公众号文章信息，标题、开头、公众号、发布时间。

请求方式为GET，请求网址为红框部分，后面的信息没什么用。

02 反爬破解

Python数据可视化：Python大佬有哪些？

什么时候出现上图这种情况呢?

两种，一种同一个IP重复访问页面，另一种同一个Cookies重复访问页面。

两个都有，挂的更快!完整爬取我只成功了一次...

因为我最开始就是先什么都不设置，然后就出现验证码页面。然后用了代理IP，还是会跳转验证码页面，直到最后改变Cookies，才成功爬取。

01 代理IP设置

def get_proxies(i): 


    """ 


    获取代理IP 


    """ 


    df = pd.read_csv('sg_effective_ip.csv', header=None, names=["proxy_type", "proxy_url"]) 


    proxy_type = ["{}".format(i) for i in np.array(df['proxy_type'])] 


    proxy_url = ["{}".format(i) for i in np.array(df['proxy_url'])] 


    proxies = {proxy_type[i]: proxy_url[i]} 


    return proxies

代理的获取以及使用这里就不赘述了，前面的文章有提到，有兴趣的小伙伴可以自行去看看。

经过我两天的实践，免费IP确实没什么用，两下子就把我真实IP揪出来了。

02 Cookies设置

def get_cookies_snuid(): 


    """ 


    获取SNUID值 


    """ 


    time.sleep(float(random.randint(2, 5))) 


    url = "http://weixin.sogou.com/weixin?type=2&s_from=input&query=python&ie=utf8&_sug_=n&_sug_type_=" 


    headers = {"Cookie": "ABTEST=你的参数;IPLOC=CN3301;SUID=你的参数;SUIR=你的参数"} 


    # HEAD请求,请求资源的首部 


    response = requests.head(url, headers=headers).headers 


    result = re.findall('SNUID=(.*?); expires', response['Set-Cookie']) 


    SNUID = result[0] 


    return SNUID

总的来说，Cookies的设置是整个反爬中最重要的，而其中的关键便是动态改变SNUID值。

这里就不详细说其中缘由，毕竟我也是在网上看大神的帖子才领悟到的，而且领悟的还很浅。

成功爬取100页就只有一次，75页，50页，甚至到最后一爬就挂的情况都出现了...

我可不想身陷「爬-反爬-反反爬」的泥潭之中，爬虫之后的事情才是我的真正目的，比如数据分析，数据可视化。

所以干票大的赶紧溜，只能膜拜搜狗工程师。

03 数据获取

1 构造请求头

head = """ 


Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 


Accept-Encoding:gzip, deflate 


Accept-Language:zh-CN,zh;q=0.9 


Connection:keep-alive 


Host:weixin.sogou.com 


Referer:'http://weixin.sogou.com/', 


Upgrade-Insecure-Requests:1 


User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 


""" 


 


# 不包含SNUID值 


cookie = '你的Cookies' 


 


def str_to_dict(header): 


    """ 


    构造请求头,可以在不同函数里构造不同的请求头 


    """ 


    header_dict = {} 


    header = header.split('\n') 


    for h in header: 


        h = h.strip() 


        if h: 


            k, v = h.split(':', 1) 


            header_dict[k] = v.strip() 


    return header_dict

2 获取网页信息

def get_message(): 


    """ 


    获取网页相关信息 


    """ 


    failed_list = [] 


    for i in range(1, 101): 


        print('第' + str(i) + '页') 


        print(float(random.randint(15, 20))) 


        # 设置延时,这里是度娘查到的,说要设置15s延迟以上,不会被封 


        time.sleep(float(random.randint(15, 20))) 


        # 每10页换一次SNUID值 


        if (i-1) % 10 == 0: 


            value = get_cookies_snuid() 


            snuid = 'SNUID=' + value + ';' 


        # 设置Cookies 


        cookies = cookie + snuid 


        url = 'http://weixin.sogou.com/weixin?query=python&type=2&page=' + str(i) + '&ie=utf8' 


        host = cookies + '\n' 


        header = head + host 


        headers = str_to_dict(header) 


        # 设置代理IP 


        proxies = get_proxies(i) 


        try: 


            response = requests.get(url=url, headers=headers, proxies=proxies) 


            html = response.text 


            soup = BeautifulSoup(html, 'html.parser') 


            data = soup.find_all('ul', {'class': 'news-list'}) 


            lis = data[0].find_all('li') 


            for j in (range(len(lis))): 


 


                h3 = lis[j].find_all('h3') 


                #print(h3[0].get_text().replace('\n', '')) 


                title = h3[0].get_text().replace('\n', '').replace(',', '，') 


 


                p = lis[j].find_all('p') 


                #print(p[0].get_text()) 


                article = p[0].get_text().replace(',', '，') 


 


                a = lis[j].find_all('a', {'class': 'account'}) 


                #print(a[0].get_text()) 


                name = a[0].get_text() 


 


                span = lis[j].find_all('span', {'class': 's2'}) 


                cmp = re.findall("\d{10}", span[0].get_text()) 


                #print(time.strftime("%Y-%m-%d", time.localtime(int(cmp[0]))) + '\n') 


                date = time.strftime("%Y-%m-%d", time.localtime(int(cmp[0]))) 


 


                with open('sg_articles.csv', 'a+', encoding='utf-8-sig') as f: 


                    f.write(title + ',' + article + ',' + name + ',' + date + '\n') 


            print('第' + str(i) + '页成功') 


        except Exception as e: 


            print('第' + str(i) + '页失败') 


            failed_list.append(i) 


            continue 


    # 获取失败页码 


    print(failed_list) 


 


 


def main(): 


    get_message() 


 


 


if __name__ == '__main__': 


    main()

最后成功获取数据。

Python数据可视化：Python大佬有哪些？

Python数据可视化：Python大佬有哪些？

04 数据可视化

1 微信文章发布数量TOP10

Python数据可视化：Python大佬有哪些？

这里对搜索过来的微信文章进行排序，发现了这十位Python大佬。

这里其实特想知道他们是团队运营，还是个人运营。不过不管了，先关注去。

这个结果可能也与我用Python这个关键词去搜索有关，一看公众号名字都是带有Python的(CSDN例外)。

from pyecharts import Bar 


import pandas as pd 


 


df = pd.read_csv('sg_articles.csv', header=None, names=["title", "article", "name", "date"]) 


 


list1 = [] 


for j in df['date']: 


    # 获取文章发布年份 


    time = j.split('-')[0] 


    list1.append(time) 


df['year'] = list1 


 


# 选取发布时间为2018年的文章，并对其统计 


df = df.loc[df['year'] == '2018'] 


place_message = df.groupby(['name']) 


place_com = place_message['name'].agg(['count']) 


place_com.reset_index(inplace=True) 


place_com_last = place_com.sort_index() 


dom = place_com_last.sort_values('count', ascending=False)[0:10] 


 


attr = dom['name'] 


v1 = dom['count'] 


bar = Bar("微信文章发布数量TOP10", title_pos='center', title_top='18', width=800, height=400) 


bar.add("", attr, v1, is_convert=True, xaxis_min=10, yaxis_rotate=30, yaxis_label_textsize=10, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False) 


bar.render("微信文章发布数量TOP10.html")

2 微信文章发布时间分布

Python数据可视化：Python大佬有哪些？

因为这里发现搜索到的文章会有2018年以前的，这里予以删除，并且验证剩下文章的发布时间。

毕竟信息讲究时效性，如果我搜索获取的都是老掉牙的信息，就没什么意思了，更何况还是在一直在变化的互联网行业。

import numpy as np 


import pandas as pd 


from pyecharts import Bar 


 


df = pd.read_csv('sg_articles.csv', header=None, names=["title", "article", "name", "date"]) 


 


list1 = [] 


list2 = [] 


for j in df['date']: 


    # 获取文章发布年份及月份 


    time_1 = j.split('-')[0] 


    time_2 = j.split('-')[1] 


    list1.append(time_1) 


    list2.append(time_2) 


df['year'] = list1 


df['month'] = list2 


 


# 选取发布时间为2018年的文章，并对其进行月份统计 


df = df.loc[df['year'] == '2018'] 


month_message = df.groupby(['month']) 


month_com = month_message['month'].agg(['count']) 


month_com.reset_index(inplace=True) 


month_com_last = month_com.sort_index() 


 


attr = ["{}".format(str(i) + '月') for i in range(1, 12)] 


v1 = np.array(month_com_last['count']) 


v1 = ["{}".format(int(i)) for i in v1] 


bar = Bar("微信文章发布时间分布", title_pos='center', title_top='18', width=800, height=400) 


bar.add("", attr, v1, is_stack=True, is_label_show=True) 


bar.render("微信文章发布时间分布.html")

3 标题、文章开头词云

from wordcloud import WordCloud, ImageColorGenerator 


import matplotlib.pyplot as plt 


import pandas as pd 


import jieba 


 


df = pd.read_csv('sg_articles.csv', header=None, names=["title", "article", "name", "date"]) 


 


text = '' 


# for line in df['article'].astype(str):(前文词云代码) 


for line in df['title']: 


    text += ' '.join(jieba.cut(line, cut_all=False)) 


backgroud_Image = plt.imread('python_logo.jpg') 


wc = WordCloud( 


    background_color='white', 


    mask=backgroud_Image, 


    font_path='C:\Windows\Fonts\STZHONGS.TTF', 


    max_words=2000, 


    max_font_size=150, 


    random_state=30 


) 


wc.generate_from_text(text) 


img_colors = ImageColorGenerator(backgroud_Image) 


wc.recolor(color_func=img_colors) 


plt.imshow(wc) 


plt.axis('off') 


# wc.to_file("文章.jpg")(前文词云代码) 


wc.to_file("标题.jpg") 


print('生成词云成功!')

Python数据可视化：Python大佬有哪些？

公众号文章标题词云，因为是以Python这个关键词去搜索的，那么必然少不了Python。

然后词云里出现的的爬虫，数据分析，机器学习，人工智能。就便知道Python目前的主要用途啦!

不过Python还可用于Web开发，GUI开发等，这里没有体现，显然不是主流。

Python数据可视化：Python大佬有哪些？

公众号文章开头词云，记得以前写作文的时候，老师不就说过开头基本决定了你的分数，所以一定要开头引用一下名人的话(古人有云...)。

那么公众号文章应该也不例外，不过这里呢，我倒是感觉到了不少广告的气息...

当然数据分析，机器学习，人工智能同样也还在其中，是不是培训广告的噱头我就不知道了。

python 数据可视化大数据 cookies

石山下

0 关注 0 粉丝 0 动态

相关推荐

python 发送get请求接口详解

　　如果想用python做接口测试，我们首先有不得不了解和学习的模块。虽然Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用。它是一个Python第三方库，处理URL资源特别方便。R

YENCSDN 2020-11-17

python 使用tkinter+you-get实现视频下载器

#获取屏幕尺寸以计算布局参数，使窗口居屏幕中央,其中width和height为界面宽和高。#阻止窗口调整大小

lsjweiyi 2020-11-17

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

python开发一个解析protobuf文件的简单编译器

最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply

Erick 2020-11-17

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

python跨文件使用全局变量的实现

但是他的一大缺陷就是只能本module 中也就是本文件中使用，跳出这个module就不行。使用一个更宏观的思路，全局变量就用全局加载的模块解决，很遗憾也是不行，这样可以，但是如果再有一个module 想用呢？这样就会报错，因为import 加载就会执行一遍

lhtzbj 2020-11-17

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python调用百度API实现人脸识别

# """ 你的 APPID AK SK """. # img = Image.fromarray #将每一帧转为Image. # output_buffer = BytesIO() #创

pythonjw 2020-11-17

Python调用ffmpeg开源视频处理库，批量处理视频

strcmd = r'ffprobe -print_format json -show_streams -i "{}"'.format. strcmd = 'ffmpeg -i "{}" -vcodec copy -

dingwun 2020-11-16

详解python os.path.exists判断文件或文件夹是否存在

os即operating system，Python 的 os 模块封装了常见的文件和目录操作。os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内

lhxxhl 2020-11-16

python实现在列表中查找某个元素的下标示例

列表中字符和数字都有。使用python的内建函数enumerate

sunskyday 2020-11-16

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 2020-11-16

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

针对Python开发人员的10个“疯狂”的项目构想

最棒的是，你可以通过这些有趣但也具有挑战性的项目来增强 Python 编程技能。你知道 Python 是被称为全能编程语言的吗？是的，它确实是，虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是

meylovezn 2020-11-20

用Python内置模块处理ini配置文件

开发人员每天都在处理一些大型而复杂的项目，而配置文件会帮到我们并节省不少时间。在处理配置文件过程中，无需更改源代码本身，只需要调整配置文件即可访问不同的API接口、更新基础URL信息或其它事情。尽管可以通过多种方式来支持软件中的配置文件，包括JSON，

逍遥友 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 2020-11-16

Python五个隐藏的特性，你可能从未听说过

在本文中，我将向您展示Python中很常见的5个特性。有经验的Python开发人员可能认识其中一些。然而，这对其他人仍将是未知的。是的，你没看错，在Python中...是一个有效的构造。...是称为省略号的单例对象。如果你把它输入到Python解释器中，你

Yasin 2020-11-16

石山下

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号