scrapy爬取Drupal网站，提示404错误

Linjunhan

2019-07-01

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。
然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示：404，要么就是给我返回了一些脏数据。

这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条，请求就正常了：

request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
request.headers['cache-control'] = 'no-cache'

看来还是得注意请求头的细节。

404错误 python爬虫 scrapy xml语言

Linjunhan

0 关注 0 粉丝 0 动态

相关推荐

SpringBoot入门二十五,默认的404错误页面引入css和js文件

Springboot默认的404,500等页面的位置在static的error中,可以直接访问,无需单独编写映射器。如果我们想美化一下这些错误提示页面,那么static下面css中的文件是不能直接饮用的,因为根据错误发生时路径的层级不同,错误页面的层级也会

csstpeixun 2020-06-28

http协议中各个响应状态返回值（200、400、404、500等）的含义

100：客户端必须继续发出请求。201，提示知道新文件的URL。206，服务器已经完成了部分用户的GET请求。301，本网页被永久性转移到另一个URL。303，建议用户访问其他URL或访问方式。401，请求未经授权。402，保留有效ChargeTo头响应。

88407013 2020-06-16

Django 自定义错误页面 403 404...

　　在templates文件夹下面创建自定义的错误页面。from app01 import views # 导入views页面

Dreamya 2020-06-09

IIS 服务器下载apk文件报404错误的解决方法

最近在使用IIS作为服务器的时候，apk文件已经上传到服务器上去了，但是无法下载，报404错误，截图如下：。最后测试，问题解决。

蓝天梦 2020-01-25

7、jsp在xml中设置映射后，css失效以及跳转网页404问题

在xml中设置管理界面得映射后，管理界面css样式不显示，以及原来可以跳转到的页面404.无论你的jsp在哪里，只要在xml设置了映射，那么他所在得相对路径就是虚拟路径的根目录下，找css和跳转相对路径都应该注意这一点。跳转页面得话，因为我需要来回进行跳转

lanzhusiyu 2019-12-30

404页面对网站来说绝对是有益无害的观点说明

有些站长可能会觉得自己的网站基本没有错误页面，所以说404页面属于可有可无的角色，其实并不见得。有时候网上的任何地方都有可能出现一些错误的URL路径指向你的网站，这些并不受我们自身的控制，所以合理的404页面可以让这些错误的URL变的有价值。从另外一

霸王棍 2011-05-12

什么？又是404！趣图助你理解HTTP状态码

被请求的资源已被永久移动位置；302—请求的资源现在临时从不同的 URI 响应请求；被请求的资源必须通过指定的代理才能被访问；该状态码是为了将来可能的需求而预留的，用于一些数字货币或者是微支付；406—不可接受的。由于和被请求的资源的当前状态之间存在冲突，

88407013 2017-09-19

Nginx自定义404错误页面并返回404状态码

对于Apache的404错误页面自定义设置网上有很多相关教程，难度也不大。今天主要讲下Linux系统下Nginx配置404错误页面，网络上。也有不少的相关文章，不过返回的状态码是200。搜索引擎抓取到错误页面的时候，发现返回的是200，他就认为这是一个正常

麦当劳 2011-12-15

301、404、200、304等HTTP状态

如果某项请求发送到您的服务器要求显示您网站上的某个网页，服务器将会返回HTTP状态码响应请求。此状态码提供关于请求状态的信息，告诉Googlebot关于您的网站和请求的网页的信息。

yanghan 2011-09-15

404页面该怎么做？

404页面的目的是：告诉浏览者其所请求的页面不存在或链接错误，同时引导用户使用网站其他页面而不是关闭窗口离开。很多开源系统包括CMS系统、Blog系统等不提供404页面或提供的404页面并未达到SEO的要求，这让网站的权威性大打折扣。404页面该达到怎么样

wawaboss 2012-04-10

nginx系列(五)关于错误页面的配置

proxy_set_headerX-Real-IP$remote_addr;

fenghuoliuxing0 2014-01-07

集成Shiro后当遇到404错误时会丢失session

String msg = "sessionId cannot be null when persisting for subsequent requests.";Cookie template = getSessionIdCookie(

yxlnum 2014-01-05

tomcat启动时报Error listenerStart错误，访问web服务时报HTTP Status 404错误

tomcat启动时报ErrorlistenerStart错误，访问web服务时报HTTPStatus404错误，导致页面无法正常访问或其他问题出现。但作用出现了偏差。用来监测jar包或者配置文件信息是否完整正确的，所以，最好的解决方法是查看tomcat的日

xyc 2012-08-29

eclipse中配置tomcat 启动正常访问报404

1、eclipse中配置好tomcat服务器后，启动tomcat查看控制台信息显示启动成功，

89407119 2012-06-04

分享五个404页面模板超好看的404页面你的网站离不了 seo优化404

一个完整的网站离不开一个好的404页面，404页面不光是让你的网站美观，它对SEO的作用也很大，你想一下如果用户打开你的网站，输入一个不存在的风址，如果没有404直接就报错了，有了404就能打开一个美观的页面，404页面对网站用户的体验非常大。今天给大家分

lwly 2019-06-27

web开发中常见错误对应的解释(404,505)

1**：请求收到，继续处理。2**：操作成功收到，分析、接受。3**：完成此请求必须进一步处理。4**：请求包含一个错误语法或不能完成。5**：服务器执行一个完全有效请求失败。101——客户要求服务器根据请求转换HTTP协议版本。201——提示知道新文件的

MusicPeng 2013-07-19

HTML状态码收集（301,404,500等）

HTTP状态码是用以表示网页服务器HTTP响应状态的3位数字代码。HTTP状态码一共分为五类。状态码的第一个数字代表了响应的五种状态之一。这些状态码被分为五大类： 100-199 用于指定客户端应相应的某些动作。300-399 用于已经移动的文件并且常被包

wodetian 2019-06-21

404 错误页面转自百度空间

如果想自定义错误页面，不需要修改该类。Servlet规范声明了相关的API，只需要在每个web应用的web.xml里定义。可按照错误类型、错误代码配置。注意错误页面必须以“/”开头，这样任何path的404错误页面及exception错误都会映射到这两个文

zmosquito 2012-11-07

HTTP状态码 403 404 500 等

请求的HTTP版本号。100Continue初始的请求已经接受，客户应当继续发送请求的其余部分。200OK一切正常，对GET和POST请求的应答文档跟在后面。201Created服务器已经创建了文档，Location头给出了它的URL。202Accepte

HAcSeeking 2012-09-14

你眼中的404页面未必返回404状态码 404页面如何正确设置

很多站长在做网站诊断的过程中，往往会查看网站有没有做404页面，一般判断的方法很简单，就是在搜索引擎地址栏随便输入一个该域名错误链接，然后看有没有404页面。404页面存在的意义就是告诉浏览者和搜索引擎所请求的页面不存在或是链接错误，你这检查只能说明用户看

liaochengseo 2014-07-04

Linjunhan

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号