网站防爬虫

ibatsiSpring

2010-08-05

关注关注

转

下面的这些方法是可以标本兼治的：

1、

详细出处参考：http://www.jb51.net/yunying/28470.html、限制IP地址单位时间的访问次数

分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。

弊端：一刀切，这同样会阻止搜索引擎对网站的收录

适用网站：不太依靠搜索引擎的网站

采集器会怎么做：减少单位时间的访问次数，减低采集效率

2、屏蔽ip

分析：通过后台计数器，记录来访者ip和访问频率，人为分析来访记录，屏蔽可疑Ip。

弊端：似乎没什么弊端，就是站长忙了点

适用网站：所有网站，且站长能够知道哪些是google或者百度的机器人

采集器会怎么做：打游击战呗！利用ip代理采集一次换一次，不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容

Note:这个方法我没接触过，只是从别处看来

分析：不用分析了，搜索引擎爬虫和采集器通杀

适用网站：极度讨厌搜索引擎和采集器的网站

采集器会这么做：你那么牛，都豁出去了，他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字，这些文字风格写在css文件中

分析：虽然不能防止采集，但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字，因为一般采集器不会同时采集你的css文件，那些文字没了风格，就显示出来了。

适用网站：所有网站

采集器会怎么做：对于版权文字，好办，替换掉。对于随机的垃圾文字，没办法，勤快点了。

5、用户登录才能访问网站内容*

分析：搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。

适用网站：极度讨厌搜索引擎，且想阻止大部分采集器的网站

采集器会怎么做：制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)

分析：还是那句，搜索引擎爬虫不会针对各种网站的隐藏分页进行分析，这影响搜索引擎对其收录。但是，采集者在编写采集规则时，要分析目标网页代码，懂点脚本知识的人，就会知道分页的真实链接地址。

适用网站：对搜索引擎依赖度不高的网站，还有，采集你的人不懂脚本知识

采集器会怎么做：应该说采集者会怎么做，他反正都要分析你的网页代码，顺便分析你的分页脚本，花不了多少额外时间。

7、防盗链措施(只允许通过本站页面连接查看，如：Request.ServerVariables(“HTTP_REFERER“))

分析：asp和php可以通过读取请求的HTTP_REFERER属性，来判断该请求是否来自本网站，从而来限制采集器，同样也限制了搜索引擎爬虫，严重影响搜索引擎对网站部分防盗链内容的收录。

适用网站：不太考虑搜索引擎收录的网站

采集器会怎么做：伪装HTTP_REFERER嘛，不难。

8、全flash、图片或者pdf来呈现网站内容

分析：对搜索引擎爬虫和采集器支持性不好，这个很多懂点seo的人都知道

适用网站：媒体设计类并且不在意搜索引擎收录的网站

采集器会怎么做：不采了，走人

9、网站随机采用不同模版

分析：因为采集器是根据网页结构来定位所需要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。

适用网站：动态网站，并且不考虑用户体验。

采集器会怎么做：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果多于10个模版了，既然目标网站都那么费劲的更换模版，成全他，撤。

10、采用动态不规则的html标签

分析：这个比较变态。考虑到html标签内含空格和不含空格效果是一样的，所以<div>和<div>对于页面显示效果一样，但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机，那么

采集规则就失效了。但是，这对搜索引擎爬虫没多大影响。

适合网站：所有动态且不想遵守网页设计规范的网站。

采集器会怎么做：还是有对策的，现在htmlcleaner还是很多的，先清理了html标签，然后再写采集规则；应该用采集规则前先清理html标签，还是能够拿到所需数据。

详细出处参考：http://www.jb51.net/yunying/28470.html

搜索引擎搜索引擎收录网站分析分页

ibatsiSpring

0 关注 0 粉丝 0 动态

关注关注

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。现在头条搜索刚开始，比如容易收录网站，大家可以试试。而且还可以官网认证，都是免费的。

athrenzala 2020-05-28

做好网站优化，必须注意这些问题

企业网站建设肯定是非常重要的。这一点被企业所深刻的认识到，但是网站建设不可以盲目进行，而是要有技巧性的完成，这里指的是后期优化工作，因为建站相关事宜，由建站公司来完成，只要是经验丰富的公司，都不会有什么问题，可以保证网站的效果，但是指望着网站上线后自己发挥

etedyh 2020-03-03

一个在网络上非常爆红的「搜索引擎」，可能比百度都好用

最近这两天，在网络上走红了一款「搜索引擎」，用过它，看见它的人都说：这个搜索引擎才是时代（世代）该有的搜索引擎。大家好，我叫：Magi 。人人见了我都说我是这个世代该有的搜索引擎，说实话，你们太过赞誉了，我其实很一般，之所有让大家感觉优秀，应该都是同行的衬

huhu 2019-11-09

网站优化：分析网站的快照没有更新的原因是什么?

作为一个网站优化者，每个人都应该知道百度快照。百度快照将随着网站内容的更新而更新。快照的更新速度与网站的更新速度成正比。如果你10天不更新，这意味着网站有问题。下面就让壹起航的小编将介绍为什么网站快照没有更新的原因。如果网站的外部链接质量不好，不仅会影响到

yanweiqi 2020-06-01

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 2020-06-25

数据专家CNZZ简介

CNZZ统计提供多角度的数据统计、对比、以及生成报表功能。便于您更及时全面的掌握贵站情况。CNZZ统计中提供网站实时访问流量数据，在统计后台左侧菜单中提供每项数据报表的入口按钮，方便您查看相关数据。主要数据报表功能项为：流量分析、来源分析、受访分析、访客分

章鱼之家 2020-06-14

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

Elasticsearch到底哪点好？

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？之前在文章中也陆陆续续的提到过，龙叔是做搜索引擎的。人们通常将 Elastic Stack 称为 ELK Stack，目前 Elastic

IceStreamLab 2020-05-31

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 2020-05-30

【汉文】SEO白帽和SEO黑帽的技术区别

SEO白帽这个名词我相信很多从业SEO优化的人最经常听到的就是这个名词，其实任何做SEO优化的人都可以称自己为SEO白帽子，在SEO大牛个人认为：SEO并没有真正意义上的黑帽白帽之分，可以说这两者所使用的技术都是交错、相互、有关联的。任何SEO优化人员在操

chenluhan 2020-05-28

信息搜集之搜索引擎

------->各级指纹识别，GitHub /源代码泄漏，敏感文件和地址。百度，谷歌，360……// 帮助我们快速缩小目标搜索范围。// 不能保证我们下载的文件的安全性

yanweiqi 2020-05-09

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，和通数据库Elasticsearch客户真实实践分享文中涉及到的图片特征提取，使用了yongyuan.name的VGGNet库，再此表示感谢！“图片搜索”是作为导购类网站比较常见的一

etedyh 2020-05-10

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

怎么防止优化好的关键词忽然排名下降

当我们优化我们的网站时，有时我们发现我们优化好的关键词的排名突然变得不稳定。我们能设法避免吗?除非他或她必须更改标题，否则不要随意更改标题。这将导致整体关键词排名下降，并严重导致网站降级的迹象。页面的关键字密度与页面的关键字排名密切相关。有些网站管理员过于

huhu 2020-03-01

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 2020-03-20

世界需要Cliqz，世界需要更多的搜索引擎

世界上只有很少的真正独立的搜索引擎。谷歌，必应，Yandex和百度是最著名的公司。大多数其他参与者只是对这四家搜索引擎结果的再加工，并且依赖于它们的功能和商业模式。又或者独立搜索引擎是非常本地化并且规模很小，不能成为大搜索引擎的替代。它是完全独立的，不使用

WEB程序员 2020-03-18

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 2020-03-03

安科网

网站防爬虫

ibatsiSpring

ibatsiSpring

相关推荐

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

做好网站优化，必须注意这些问题

一个在网络上非常爆红的「搜索引擎」，可能比百度都好用

网站优化：分析网站的快照没有更新的原因是什么?

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

Elasticsearch到底哪点好？

1、网络爬虫

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

ibatsiSpring