如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求？

haifeng

2014-11-14

网站经常会被各种爬虫光顾，有的是搜索引擎爬虫，有的不是，通常情况下这些爬虫都有UserAgent，而我们知道UserAgent是可以伪装的，UserAgent的本质是Http请求头中的一个选项设置，通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫（蜘蛛）的方式是不靠谱的，更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host，在windows下可以通过nslookup命令，在linux下可以通过host命令来获得，例如：

如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求？

这里我在windows下执行了nslookup ip 的命令，从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。这说明这个ip是一个google爬虫，google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息，代码如下：

import socket
def getHost(ip):
    try:
        result=socket.gethostbyaddr(ip)
        if result: return result[0], None
    except socket.herror,e:
        return None, e.message

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关，例如：

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
google爬虫通常是googlebot.com的子域名
微软bing搜索引擎爬虫是search.msn.com的子域名
搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理，我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面，该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

页面地址：http://outofmemory.cn/tools/is-search-engine-spider-ip/

本文提供的代码是python代码，通过JAVA代码也是可以实现的，原理是一样的。

搜索引擎蜘蛛搜索引擎原理 python爬虫 host

安科网

如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求？

haifeng

haifeng

相关推荐

深入搜索引擎原理

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

haifeng