Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

Alexantao

2019-02-11

关注关注

欢迎点击右上角关注小编，除了分享技术文章之外还有很多福利，私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

前言

前段时间小编在网上看到一篇文章《百度一下，坑死你》引起了很多讨论，百度对此的回复是： 百家号的内容在百度搜索结果中不超过10%

今天小编就用Python对百度的搜索结果爬取并进行简单的分析。

具体步骤

1.页面分析

首先打开网页查看百度的热点事件，页面如下：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

这次我主要对今日热点、娱乐热点、体育热点进行了爬取，每个热点下面有50条热点事件，然后对每个事件进行搜索，比如第一条--马云的福字：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

可以看到搜索结果的第一页上有很多标题，然后对这些标题的链接进行爬取，再保存到一个txt文件里，最后对这些数据进行分析。

2.主要代码

（1）获取真实链接

这些搜索结果页面上的链接都是经过加密的，如下图：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

我们要怎么得到真实的链接呢？相关代码如下：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

2）数据处理

这里我总共爬取了1051条链接，如下图：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

（3）数据分析

这里主要使用了matplotlib绘图帮助我们分析数据。首先需要统计出各个网站出现的次数，然后进行一个排序，得到排名前十的网站，结果如下（前面是网站，后面是出现次数）：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

可以看到百家号出现的次数是最多的。然后进行绘图分析，这里主要是绘图的代码，因为使用的是百分数，所以在绘图的时候会稍微麻烦一点：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

运行结果

由于每个事件的搜索结果都是不同的，所以在解析网页的时候可能会出错，然后就是请求频率太高了会被ban掉，而且有时候UA会被识别出来然后就被ban掉了，运行情况如下图：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

最后看一下绘制出来的图片：

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

可以看到百家号的内容占比达到了17%，而排在第二的也是百度自家的产品，内容占比也达到了10%。当然了，由于搜索的都是百度上的热搜事件，所以得到的结果百度自家的内容会多一点，但是光百家号的内容就占了17%，是不是也太多了点呢？

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对小编的支持。

百度搜索百度 python

Alexantao

0 关注 0 粉丝 0 动态

关注关注

Vue项目引用百度地图并实现搜索定位等功能

点此试试在线操作！前往百度地图开放平台控制台，登录百度账号，创建应用即得。参考百度地图逆地址解析示例demo，封装一个逆地址解析函数，供下面的功能调用。

worldkun 2020-01-06

记录一下网盘搜索网站

　　这几天下载HEVC的测试序列，百度必应搜好久，都不全，忽然想起百度盘里肯定有，还真找到了。

worldkun 2019-12-24

人像特效还能这么用？百度大脑开放日用四大场景揭秘AI人像特效能力

9月25日，百度大脑开放日人像特效专场在北京中关村百度大脑创新体验中心召开。开放日上，百度大脑宣布全新开放互动娱乐、虚拟试妆、虚拟人、美业/健康四大人像特效应用场景下，七大类特效能力，并在现场演示产品使用效果。零技术低门槛、小时级批量制作高保真素材、半分钟

magvwiz 2020-09-26

Go实战项目推荐：开源版百度文库竟然是一个人完成的

互联网老司机应该多少都用过百度文库吧？！今天推荐的这个项目，他的作者在读大学时，不止是用百度文库，还想尝试自己搭建一个。虽然这个愿望是几年后才实现的。这是一个 Go 语言项目，基于 Beego 框架。喜欢 Go 语言、喜欢 Beego 的朋友可以了解下这个

mickeychan 2020-09-17

百度世界2020|百度CTO王海峰发布百度大脑6.0，AI新基建加速产业智能化

如果让你见到二十年前的自己，和他（她）进行一次对话，你会和他（她）聊点什么？不用脑补了，这一如同科幻电影般的场景，已经在“百度世界2020”大会上演了。9月15日，百度联合央视新闻举办的“百度世界2020”大会以线上直播的形式召开。此次，百度大脑再次全新升

rungod 2020-09-16

百度AI新基建亮相2020服贸会最新人工智能成果全景展出

新一轮科技革命和产业变革孕育兴起，数字化、智能化技术正在成为我国服务贸易的亮眼“名片”。9月4日-9日，2020年中国国际服务贸易交易会在京开幕。百度作为全球领先的人工智能平台型公司全方位参与了此次盛会。百度CTO王海峰出席数字贸易发展趋势和前沿高峰论坛。

xiaozhukuaitui 2020-09-05

百度AI新基建亮相服贸会，CTO王海峰展示百度助推产业智能化硕果

AI正在为各行各业注入新活力，而AI新基建也在为包括服务贸易领域在内的社会经济发展提供新动力。9月4日，万众瞩目的2020中国国际服务贸易交易会正式召开。这是疫情发生以来，我国在线下举办的第一场重大国际经贸活动，吸引了1.8万家境内外企业及机构前来参展，并

小西0 2020-09-05

百度CTO王海峰详解语言与知识完整布局

语言与知识技术是人工智能认知能力的核心。2010年，百度成立自然语言处理部，在前瞻技术与产业格局上不断引领、创新，十年间已成为中国NLP发展的一面旗帜。十年来，百度大脑语言与知识技术成果丰硕，获得包括国家科技进步奖在内的20多个奖项，30多项国际竞赛冠军，

xiaozhukuaitui 2020-08-25

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

AI正在向更深层次进化，语言与知识技术的重要性愈加凸显。在演讲中，王海峰表示，“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

龙心尘 2020-08-25

乌镇百度大脑开放日召开启动EasyDL产业智能创新大赛

8月21日，百度大脑开放日在乌镇举办“乘风新基建，加速产业智能化升级”专场，桐乡市经济和信息化局副局长陈再飞、乌镇镇科协秘书长钱永琪、桐乡市工业互联网企业联合会会长于亚东等出席活动。会上，百度大脑发布了新近开放和升级的AI能力，重磅推出乘风人脸通行考勤平台

rungod 2020-08-22

Python灰帽子：黑客与逆向工程师的Python编程之道PDF高清完整版免费下载|百度云盘

提取码：8nki 目录······ 第1章搭建开发环境 11.1 操作系统要求 11.2 获取和安装Python 2.5 21.2.1 在Windows下安装Python 21.2.2 在Linux下安装Python 21

waiwaiLILI 2020-07-20

百度发力新基建：2030年百度智能云服务器数量超过500万台

预计到2030年，百度智能云服务器台数超过500万台。当天，百度还宣布未来5年预计培养AI人才500万，为中国智能经济和智能社会的发展提供AI人才保障。有媒体报道，到2025年中国AI人才缺口将达到1000万。此次百度宣布培养AI人才500万计划，率先扛起

shilongdred 2020-06-28

百度网盘无限下载器，无限下载下载助手，

2、打开此软件复制百度网盘的链接和提取码就会自动打开。

zmosquito 2020-06-26

C# 调用百度AI接口实现文字识别

今天心血来潮做了个识别图片文字的demo，现在文字识别技术已经比较成熟了，而且还有可以调用的公共接口。今天做的demo主要简单对比了Tesseract-OCR和BAIDU.AI 这两种方法，感觉百度的中文识别准确率更高，Tesseract-OCR中文别准确

人工智能快报 2020-06-09

尚硅谷2019最新大数据课程百度云

很多人都在怎样才可以学习大数据。学习大数据最重要的是需要掌握一些大数据方面的知识。下面为大家介绍学习大数据需要具备的能力。

shilongdred 2020-06-08

AI: 百度AI实战教学

id=3&hmsr=%E5%BC%80%E5%8F%91%E8%80%85-AI%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF&hmpl=&hmcu=&hmkw=&hmci=

zmosquito 2020-06-02

百度CTO王海峰：飞桨深度学习平台是新基建的重要一环

产业智能化快速深入推进，人工智能基础设施的建设不可或缺。5月20日，由深度学习技术及应用国家工程实验室与百度联合主办的“Wave Summit 2020”深度学习开发者峰会在线上召开。百度CTO王海峰在致辞中表示，时代契机为飞桨的发展提供了最好的机遇，作为

nextwhy 2020-05-20

vue-cli3关闭eslint语法检查

lintOnSave: false,warnings: true,

shilongdred 2020-05-03

android百度地图定位服务

创建一个Module包名为com.mingrisoft,将项目结构类型切换为Project,解压缩下载的BaiduLBS_Android-SDK_Lib.zip文件，将libs下的jar文件复制到该Module的libs文件夹中。选中这些文件，单击右键选择

fengyeezju 2020-04-20

Android中应用百度地图API开发地图APP实例-显示百度地图

如果修改过就要到修改的路径下。在此路径下打开命令行窗口。keytool默认路径：C:\Program Files\Java\jdk1.8.0_181\bin. 然后提示输入密钥库命令，直接回车。然后再回到百度开放平台点击提交。就可以获取开发密钥了。这样就会

etzt 2020-04-16

安科网

Python对百度的搜索结果进行简单的分析，“百度一下，坑死你”

Alexantao

前言

具体步骤

运行结果

Alexantao

相关推荐

Vue项目引用百度地图并实现搜索定位等功能

记录一下网盘搜索网站

人像特效还能这么用？百度大脑开放日用四大场景揭秘AI人像特效能力

Go实战项目推荐：开源版百度文库竟然是一个人完成的

百度世界2020|百度CTO王海峰发布百度大脑6.0，AI新基建加速产业智能化

百度AI新基建亮相2020服贸会最新人工智能成果全景展出

百度AI新基建亮相服贸会，CTO王海峰展示百度助推产业智能化硕果

百度CTO王海峰详解语言与知识完整布局

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

乌镇百度大脑开放日召开启动EasyDL产业智能创新大赛

Python灰帽子：黑客与逆向工程师的Python编程之道PDF高清完整版免费下载|百度云盘

百度发力新基建：2030年百度智能云服务器数量超过500万台

百度网盘无限下载器，无限下载下载助手，

C# 调用百度AI接口实现文字识别

尚硅谷2019最新大数据课程百度云

AI: 百度AI实战教学

百度CTO王海峰：飞桨深度学习平台是新基建的重要一环

vue-cli3关闭eslint语法检查

android百度地图定位服务

Android中应用百度地图API开发地图APP实例-显示百度地图

Alexantao