heritrix 下载不通过服务器缓存

阿赞

2010-08-08

最近爬虫下载论坛时出现了一些奇怪的问题。

1.下载一半就无法下载

2.下载了很多空页面，提示说页面不存在

问题一：原因分析，由于网站对一个IP在一个时间片内访问太频繁，导致封IP。

解决方案：减缓爬虫下载间隔，多个网站一起下载，而且网站越多越好，可以错开下载。

问题二：初步分析，下载的页面是html的，怎么可能有这个问题？因为下载的论坛是开源的discuz，我们都知道discuz有一个缓存机制，管理员可以删除帖子，可是被删除的帖子还存在服务器缓存中，由此可以证明那些html都是伪静态的页面，而且爬虫下载是通过服务器缓存的。通过日志可以发现：类似于百度,google这类的大网站，他们的爬虫都是不通过服务器缓存的。

爬虫也是通过URLConnection啊那什么HTTPURLConnection还是httpclient都继承这个建立连接服务器返回给你什么就是什么，做了缓存服务器就返回给你缓存

爬虫通过URL建立Socket，和服务器通信，获取资源即可。所以抓不抓后台，在于服务器给它什么资源.爬虫是不知道什么后台不后台的。都是服务器给它资源，也就是InputStream

缓存服务器 heritrix 缓存

阿赞

0 关注 0 粉丝 0 动态

相关推荐

nginx proxy_cache 缓存配置详解

由于本人工作原因，涉及到网络直播领域，其中视频的回放下载，涉及到了一些视频下载方面的技术。针对于一个完整视频的下载，目前市面上的主流做法是，先将整个视频流切片，存储到文件服务器中，在用户需要观看回放视频时。通过一个视频回源服务器，去文件服务器中逐个请求切片

Freshairx 2020-11-10

前端api请求缓存方案

在开发 web 应用程序时，性能都是必不可少的话题。对于webpack打包的单页面应用程序而言，我们可以采用很多方式来对性能进行优化，比方说 tree-shaking、模块懒加载、利用 extrens 网络cdn 加速这些常规的优化。而事实上，缓存一定是提

学习web前端 2020-11-09

Linux上如何清除RAM内存高速缓存，缓存和交换空间

像任何其他的操作系统一样，GNU / Linux已经有效地实施了内存管理甚至更多。但是，如果有任何进程正在蚕食你的内存，你要清除它，Linux提供了一个方法来刷新或清除RAM缓存。每一个Linux系统有三个选项来清除缓存而不中断任何进程或服务。1，仅清除缓

liuyuchen 11评论 2020-10-27

原来缓存也会雪崩、击穿、穿透啊

仅靠着超高配置的服务器资源，还是很难支撑高并发的场景。因此我们需要缓存。比如双十一的时候，iPhone12在凌晨00:00-01:00可1分钱抢购，哇，这个可是真便宜呢，程序员们也预测到了商品的火爆，于是将iPhone12的商品信息缓存到redis中，设置

天空一样的蔚蓝 2020-10-23

PHP网页缓存技术优点及代码实例

简单的说就是将数据调用到内存中，然后从内存中读取，从而大大提高读取速度。　　Memcache是danga的一个项目，最早是LiveJournal 服务的，最初为了加速 LiveJournal 访问速度而开发的，后来被很多大型的网站采用。　　Memcache

chenhaimeimeng 2020-08-15

redis系列之数据库与缓存数据一致性解决方案

一般来说，只要你用到了缓存，不管是Redis还是memcache，就可能会涉及到数据库缓存与数据的一致性问题，这里我们以Redis为例。更新的时候，先更新数据库，然后再删除缓存。读的时候，先读缓存；如果没有的话，就读数据库，同时将数据放入缓存，并返回响应。

东哥笔记 2020-08-14

Spring Boot 2.x基础教程：使用集中式缓存Redis

之前我们介绍了两种进程内缓存的用法，包括Spring Boot默认使用的ConcurrentMap缓存以及缓存框架EhCache。虽然EhCache已经能够适用很多应用场景，但是由于EhCache是进程内的缓存框架，在集群模式下时，各应用服务器之间的缓存都

幸运小侯子 2020-08-14

ajax缓存机制

只要是POST请求，浏览器都不会缓存。Https的请求，浏览器不会缓存。在URL中拼入随机的查询字符串可以使浏览器认为这是一个新的请求，从而不使用缓存。

curiousL 2020-08-03

C#中的缓存技术(页面部分缓存)

1,页面部分缓存通常情况下,缓存整个页是不合理的。页面部分缓存是将页面部分内容保存内存中以便响应用户请求，而页面其他部内容则为动态内容。页面部分缓存的实现包括控件缓存和替换后缓存两种方式。前者也可称为片段缓存，这种方式允许将需要缓存的信息包含在一个用户控件

vanturman 2020-08-01

JavaScript中的缓存API

了解如何使用JavaScript中的Cache API缓存资源。Cache API允许服务工作者对要缓存的资源进行控制。检查 caches 对象在 window 中是否可用。caches 是 CacheStorage 的一个实例。如果缓存已经存在，则不会创

shawls 2020-07-29

深入浅出从根上理解 HTTP 缓存机制及原理！

HTTP 缓存，对于前端的性能优化方面来讲，是非常关键的，从缓存中读取数据和直接向服务器请求数据，完全就是一个在天上，一个在地下。我们最熟悉的是 HTTP 服务器响应返回状态码 304，304 代表表示告诉浏览器，本地有缓存数据，可直接从本地获取，无需从服

sochrome 2020-07-29

CDN简介

cdn是把原本需要集中获取的资源缓存到边缘节点，使用户就近访问。通过在网络中增加一层缓存层，通过全局负载技术将源站的资源分发到里用户最近的网络边缘节点上，使缓存服务器响应用户请求，从而达到快速访问的目的。广泛分布的CDN节点及只能冗余机制能有效地防止黑客入

buaichidoufu 2020-07-28

使用可视化工具redis-desktop-manager管理查询缓存。

使用可视化工具redis-desktop-manager管理查询缓存。Redis的可视化管理工具有很多，分享一篇文章大家都可以手动去试试，几款开源的图形化Redis客户端管理软件推荐。点击windows平台“redis-desktop-manager-0.

guoyun0 2020-07-19

DNS域名解析过程

当在浏览器中输入URL时，DNS解析是怎样的的过程呢？浏览器缓存有大小和时间限制，域名被缓存的时间限制可以通过TTL属性来设置。

leodengzx 2020-07-18

缓存策略

缓存穿透，查询无数据时2，导致缓存不生效，查询都落到数据库 **建议：强制返回一个默认值，缓存击穿，缓存失效瞬间，大量请求访问到数据库：比如同一个页面并发量比较大，建议：使用二级缓存策略，当一级缓存失效时，我们允许一个请求去落到数据库上面，更新缓存数据，其

SoarFly00 2020-06-28

Memcached 服务特点及工作原理是什么？

c、C/S 模式架构，C 语言编写，总共 2000 行代码。d、异步Ｉ/O 模型，使用 libevent 作为事件通知机制。e、被缓存的数据以 key/value 键值对形式存在的。会监控过期，而是在访问的时候查看 key 的时间戳,判断是否过期。j、me

LinuxJob 2020-06-26

MySQL优化之缓存优化

为了提高查询速度，我们可以通过不同的方式去缓存我们的结果从而提高响应效率。当我们的数据库打开了Query Cache功能后，数据库在执行SELECT语句时，会将其结果放到QC中，当下一次处理同样的SELECT请求时，数据库就会从QC取得结果，而不需要去数据

韩学敏 2020-06-17

大型网络技术架构3

最常见的架构模式，将系统在横向维度上切分成几个部分，每个部分单一职责。网站一般分为三个层次：应用层、服务层和数据层，过分层，一个庞大系统切分成不同部分，便于分工合作和维护。　　①分布式应用和服务：应用和服务模块分布式部署，便于业务功能扩展；　　②反向代理：

架构技术交流 2020-06-13

web缓存测试

这个点比较好理解，包括位置，名字和内容。这个点应该也是可以理解的，包括由应用发起的主动清除以及从第三方发起的清除。清除之后应用是否还能正常工作。

服务器端攻城师 2020-06-12

php使用redis做缓存和使用redis保存session

echo "服务器测试:".$redis->ping();echo "获取redis值：".$redis->get;auth=password",端口也可以自己设置

YukiRain 2020-06-14

阿赞

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号