Python实现抓取百度搜索结果页的网站标题信息

luyun0

2019-04-17

Python实现抓取百度搜索结果页的网站标题信息

比如，你想采集标题中包含“58同城”的SERP结果，并过滤包含有“北京”或“厦门”等结果数据。

该Python脚本主要是实现以上功能。

其中，使用BeautifulSoup来解析HTML，可以参考我的另外一篇文章：Windows8下安装BeautifulSoup

代码如下：

代码如下：

__author__ = '曾是土木人'

# -*- coding: utf-8 -*-

#采集SERP搜索结果标题

import urllib2

from bs4 import BeautifulSoup

import time

#写文件

def WriteFile(fileName,content):

    try:

        fp = file(fileName,"a+")

        fp.write(content + "\r")

        fp.close()

    except:

        pass

#获取Html源码

def GetHtml(url):

    try:

        req = urllib2.Request(url)

        response= urllib2.urlopen(req,None,3)#设置超时时间

        data    = response.read().decode('utf-8','ignore')

    except:pass

    return data


#提取搜索结果SERP的标题

def FetchTitle(html):

    try:

        soup = BeautifulSoup(''.join(html))

        for i in soup.findAll("h3"):

            title = i.text.encode("utf-8")　　　　　　 

　　　　　　　if any(str_ in title for str_ in ("北京","厦门")):

　　　　　　　　  continue

            else:

                print title

            WriteFile("Result.txt",title)

    except:

        pass


keyword = "58同城"

if __name__ == "__main__":

    global keyword

    start = time.time()

    for i in range(0,8):

        url = "http://www.baidu.com/s?wd=intitle:"+keyword+"&rn=100&pn="+str(i*100)

        html = GetHtml(url)

        FetchTitle(html)

        time.sleep(1)

    c = time.time() - start

    print('程序运行耗时:%0.2f 秒'%(c))

百度搜索 python

luyun0

0 关注 0 粉丝 0 动态

相关推荐

用Python写Roboot Framework测试九：用Python写Roboot Framework测试

args=["测试教程网_百度搜索"]). # 生成日志、报告文件。进入到项目目录下，执行

rojyang 2020-05-20

用rod获取百度搜索结果的例子

// use css selector to get the search input element and input "git". // wait until css selector get the element then g

ELEMENTS爱乐小超 2020-05-07

用 Python 获取百度搜索结果链接

近期有许多项目需要这个功能，由于Python实现起来比较简单就这么做了，代码贴下来觉得好点个赞吧~

worldkun 2020-04-21

Chrome 百度搜索热点过滤插件 - 开源软件

学习时，为了搜集最全的中文资料，有时候不得不使用Baidu搜索引擎。在你还是个小菜鸡的时候你可能会花费大量时间在百度上！但是，时间久了你会发现，你总会被网络上一些奇奇怪怪或者有趣的事情吸引过去而逐渐忘记自己曾经打开百度是要干什么？对于广告吧，还能使用广告清

baynkbtg 2019-11-02

百度熊掌号: 2018-2020年, 你不容错过的流量红利!

自百家官方号上线到熊掌号落地以来，百度搜索一直在颠覆原有的搜索生态，不断的推陈出新与改革，净化网络环境，扶植优质原创内容，让搜索回归本质，从而适应快速迭代移动互联网的发展，对于百度搜索而言，这是一种挑战，也是一种重生，对于SEO从业者，这也是千载难逢的机遇

ksjlhy 2019-10-28

实现百度搜索栏自动提示功能

<input type="text" id="down" value="e"></input><span style="font-weight:bold;f

geminihr 2015-03-19

仿百度搜索时的下拉列表（jQuery实现）

当我们使用百度或是谷歌进行搜索时，只要输入一个字母就可以产生一个下拉列表，并且可以通过键盘上下键来控制列表项的选择。最近在项目中也碰到了类似的情况，在文本框中输入某个字母就可以出现一个下拉列表，展现从数据库里搜索过来的结果。首先要使用ajax的话，就想到可

chang00 2015-06-17

python+selenium实现自动化百度搜索关键词

通过python配合爬虫接口利用selenium实现自动化打开chrome浏览器，进行百度关键词搜索。同时需要安装chromedriver,并放在python安装文件夹下，如下图所示。注册账号，点击爬虫代理，领取每日试用。

LinSeeker 2019-09-07

百度搜索结果跳转URL代码规律分析

实际上根本来说，是百度对于用户体验的加强!打击点击器就是为了更好地让优质的网站展现给用户，跟360综合搜索区别，禁止360抓取也是为了体现百度的品牌效应，从这两点来说对用户是有利的!

nextwhy 2012-09-09

网站百度快照不更新原因分析

要想找到原因我们要先了解一下什么时百度快照。简单的说，百度快照就是百度为每个网站做的备份信息，如果网站出现问题或打开很慢影响用户浏览时，快照内容就可以起到应急信息的作用。我们都知道百度是利用蜘蛛来获取网站信息的，而蜘蛛喜欢新的东西喜欢有价值有意义的东西。

tongjianru 2011-05-18

win10系统百度搜索重复自动刷新怎么办？win10系统网页无限刷新的两种解决方法

但是最近使用Win10系统的用户反应，在使用百度搜索东西的时候一直重复刷新页面，导致无法正常搜索的情况，但是在地址栏中输入其他网址又可以正常使用，这该怎么办？下面安科网的小编给大家分享下解决方法。出现这样的情况是由于浏览器出错或者被劫持导致。

Jarvan 2016-09-25

win7系统使用百度搜索资料时自动跳转到搜狗搜索的故障原因及解决方法

2、在打开的窗口中，点击左侧“更改适配器设置”，选中已连接的网络，右键打开属性；Win7禁止网络搜索驱动的方法

fadacai0 2016-04-18

如何删除百度搜索记录？

百度，全球最大的中文搜索引擎。方便网民便捷的搜索获取需要的信息。用户在搜索信息之后，百度会留下并显示搜索记录，有的用户觉得这样的方式对隐私保护不够，那么如何删除百度搜索记录呢，以下小编为大家介绍删除百度搜索记录方法。

deusrwvf 2017-06-21

千万别用百度搜索这些词：真吓一跳

　　下面是一些常见的带特效的关键词，你别说，小编第一次搜的时候，还真被吓一跳，不信你试试。　　ps.需PC浏览器，手机上还无法实现，如果你没看到特效，不妨换个浏览器试试。　　真的会出现打雷的声音，而且特别逼真。　　我去，屏幕上真会出现一个黑洞，把所有东西都

AIOps智能运维 2015-05-25

使用Java调用百度搜索

自己没搜索引擎，又想要大规模的数据源，怎么办？可以对百度搜索善加利用，以小搏大，站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索来实现，比如网站的新闻采集，比如技术、品牌的新闻跟踪，比如知识库的收集，比如人机问答系统等，我之前做的一个准确率达百分

magvwiz 2013-10-18

最好用的百度网盘搜索引擎，百度搜索【我要盘】

最好用的百度网盘搜索引擎，百度搜索

冯泰 2016-11-23

怎样把搜索引擎收录的网页记录删除呢？

我的个人博客的某些网页被百度的搜索记录了，现在这些网页已被我删除，但百度依然还有这些记录，我想把这些记录删除了，那应该怎么办呢？具体情况参看百度的说明：。百度会收录符合用户搜索体验的网站和网页。为促使百度Spider更快的发现您的站点，您也可以向我们提交一

AIOps智能运维 2010-08-17

当心搜索结果把自己埋进去

但在南山科技园工作的张小姐的搜索体验却成了“百度一下，你就被骗”。前日，她先是在百度搜索到的东方航空公司网站订机票。被骗汇款1758元，随后气愤之下在百度搜索“百度投诉中心电话”时，被百度置于第二位的一个百度投诉中心的电话竟然也是“假冒伪劣”，让她再去银行

linqiang 2010-02-04

如何全面的提升百度搜索排名？

但是，作用很有限！感觉很像是你很饥饿，但是锅里只有几粒米！一顿操作猛如虎，在看战绩0-5;那就拜托技术上的思维固化整体性的思考这个问题！百度是怎么确定一个网站是不是知名站点呢？百度已经很难收到这篇文章，前段时间很火！

XSxing 2019-06-30

Jsoup爬虫获取自己网站在百度搜索中的实时排名

一直有一个需求，希望看到自己网站在百度的实时的排名用过一些工具，要么反应迟钝，要么结果不准确或不实时于是打算用jsoup写一个小爬虫来实时百度看网站排名。public static int timeout = 30 * 1000;

XSxing 2019-06-30

luyun0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号