Python使用scrapy抓取网站sitemap信息的方法

wlpython

2015-04-08

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

sitemap python scrapy

wlpython

0 关注 0 粉丝 0 动态

相关推荐

网站地图sitemap.xml自动更新lastmod文件（PHP代码）-更新

上一遍《网站地图sitemap.xml自动更新lastmod文件》代码在实际应用中并不理想，在浏览器中访问后，过一会就出现500的错误，不能实现夜间或者凌晨变更日期的目的。对代码进行了更新，把更新后的php页面在index.php中被调用，也就是只要有人访

有梦就能实现 2020-05-01

Hexo博客谷歌收录地址

博客写出来重要的一环就是分享，让他人浏览，所以被浏览器收入显得至关重要！我们需要使用npm自动生成网站的sitemap，然后将生成的sitemap提交到百度和其他搜索引擎。sitemap是一种文件，您可以通过该文件列出您网站上的网页，从而将您网站内容的组织

Amzaing00 2019-11-03

使用hexo和github搭建静态博客网站（三）

博客网站功能完善。这节我们只会介绍几个完善网站功能的方法，如果你还想增加其他功能，可以通读NexT 使用文档、文档|hexo，根据自己的需要来增加功能。修改站点配置文件的language字段，比如设置为简体中文。hexo new '测试文章'. 部署后可以

89327060 2019-10-06

Django Sitemap 站点地图的实现方法

Sitemap是通知搜索引擎页面的地址，页面的重要性，帮助站点得到比较好的收录。Django 1.8 及以上版本新加入了 TEMPLATES 设置，其中 APP_DIRS 要为 True，比如：。# NOTICE: code for Django 1.8,

xufwind 2019-09-06

网站地图制作工具 Sitemap Creator 2.1

优异搜索将永久免费提供网站地图制作工具的序列号。站长将sitemap.xml上传到网站服务器上，然后提交到主要的搜索引擎，如必应,百度，Google,Yahoo!这样可以使搜索引擎更好地索引您的网站，从而提高搜索引擎排名。将绿色免安装版下载后解压缩。在解压

清风落叶 2011-09-30

robots 中 Sitemap 的 XML 格式和用法

此文档介绍适用于Sitemap协议的XML架构。Sitemaps协议格式由XML标记组成。Sitemap的所有数据数值应为实体转义过的。文件本身应为UTF-8编码。*在<urlset>标记中指定命名空间。*每个网址包含一个<url>

greatking 2011-02-14

robots.txt及其 Meta标签在SEO中的作用、如何提交网站地图（转）

robots.txt是一个纯文本文件，用来告诉网络蜘蛛本站中哪些位置允许抓取，哪些位置不允许抓取。首先，robots.txt文件必须放置在网站根目录；有域名指向到次目录，在次目录放置的robots.txt文件只对此域名有效。其次，文件名必须小写，如Robo

codekong 2011-01-04

wordpress优化十法

系统本身，默认安装的情况下使用默认模板，实际上对搜索引擎并不友好，并没有针对搜索引擎进行很好的设计，下面我介绍一些技巧和方法可以使得WordPress能否对搜索引擎更为友好。postname使用英文，如果是写英文Blog的话，系统会自动将标题的post s

ibatsiSpring 2010-11-30

主动提交sitemap让谷歌、雅虎、MSN统统收录你的网站、博客

百度还在封测中。主动提交Sitemap，让谷歌、雅虎、百度、MSN统统收录你的博客。完成之后点击“提交认证”即可。这是因为Google对一个新站的漫游周期会比较长。在对一个新的网站进行收录时，笔者的经验是，Google反应最快，收录最快，MSN 次之，Y

LoveJob 2010-06-25

网站robots.txt文件说明（2）

今天一天之内，准确的说相隔不到3个小时，就有两个朋友在QQ上让我帮他看看网站，为什么搜索引擎不收录。从我个人角度来看，他们的站做的还不错，除了个别地方不够，没有导致不收录的因素。最后一查看robots.txt，“Disallow:/”。robots.txt

ach 2010-02-26

站长 sitemap索引文件以及提交到百度

现在做网站如果离开了百度，那是绝对做不起来的。自从谷歌退出中国之后，百度就更加成为了中文搜索引擎中的霸主。百度退出站长平台之后，很多人发现其实里面有很多功能对我们是比较重要的。不过很多站长不用这个功能，没关系，一也可以做到让百度加快搜索。

zmosquito 2016-03-02

如何正确处理网站建设产生的死链

网站死链是指在对自己网站进行优化、改版、管理的过程中，不可避免地会出现被淘汰、删除或者无效的网页链接，这些链接就是死链。如果通过传统百度Spider自行检查死链的方式发现这些死链，会浪费很多额外的流量和带宽，甚至影响网站其他正常页面的抓取和索引，进而影响网

小白的黑科技 2016-11-13

专业的seoer人员应该掌握哪些网站技术?

现在的网站建设主流程序都是动态代码，既然是动态网页势必要进行web服务器的翻译和解析，当下我们熟知的网站开发语言有PHP、ASP、JSP、作为中小企业而言可能asp和php是主流程序，所以我们结合自己网站情况使用适合自己的站点服务器搭建环境，笔者一直使用的

enjoyhot 2016-04-10

什么是SEO SEO新手快速入门技巧

　SEO中文翻译就是搜索引擎优化或者网站优化技术，建议SEO入门初学者经验不足者认真看完，骨灰级人物请绕道而行。很多想学习的人都不知道SEO入门基础知识，如何学起。我认为SEO新手不要刻意的去专研一些SEO技巧，SEO难题。重要的是保持一个良好的心态。只要

qiuqiang 2016-02-16

浅谈搜索引擎营销推广技巧及搜索排名优化

什么是搜索引擎营销？搜索引擎营销，我们通常简称为SEM，搜索引擎营销的基本思想是让用户发现信息，并通过搜索引擎搜索点击进入网站进一步了解他所需要的信息。一般认为，搜索引擎优化设计主要目标有2个层次：被搜索引擎收录、在搜索结果中排名靠前。搜索引擎营销推广的方

chaojilaji 2016-01-13

百度sitemap索引文件怎么制作？如何提交到百度？

现在做网站如果离开了百度，那是绝对做不起来的。自从谷歌退出中国之后，百度就更加成为了中文搜索引擎中的霸主。百度退出站长平台之后，很多人发现其实里面有很多功能对我们是比较重要的。不过很多站长不用这个功能，没关系，一也可以做到让百度加快搜索。

chenlaoyang 2014-12-24

SEO中容易被忽视的细节分析小结

定时检查友情链接，去掉被K或者降权的站，好好的排名被友情拖累而下降就太冤了。好的用户体验才能够留住用户，SEO虽然可以带来用户，但是更需要我们留住用户。看完了上面的内容，大家应该有不少想法跟需要去做的事了。

zhuzhu侠 2009-09-22

SiteMap Maker v1.01 网站地图生成器

很多人的网站在Google，百度，雅虎等各大搜索引擎收录非常少，而且长期收录不增长或者增长很慢。这主要是因为，搜索引擎没有足够的信息爬行到这个网站的每一个页面。这大大影响了搜索引擎为网站带来的流量。拥有网站地图的网站，被认为是搜索引擎友好的网站，通常被搜索

冬冬阳光 2011-02-24

关于百度站长工具的使用测评

对于一般小的站点来说，sitemap的提交并非必须，你可以将sitemap上传到根目录中，然后将sitemap地址写入robost文件中。对于大中型的站点，最好提交sitemap地图。唯一的缺点就是反应速度较慢，但瑕不掩瑜，不能否认其作用。所以，外链查询工

MrAnroidBeginner 2013-06-30

Java搜索引擎服务器Open Search Server1.2.3发布

OSS 是一个用 Java 开发的搜索引擎服务器，基于 Lucene 、ZK 和 Tomcat 等开源软件架构。Open Search Server 1.2.3 包含很多改进和 bug修复，最值得关注的是增加了 OpenSearchServer 的 Dr

kugeliu 2011-12-14

wlpython

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号