浅谈百度爬虫的HTTP状态码返回机制

pcgrass

2016-06-21

研究seo的一定很了解下面这些返回码的含义了，对于这些不是很熟悉的朋友也应该了解一下基本的比如200是请求成功，301重定向，404找不到等等。下面首先会介绍一下百度对于各个状态吗的处理逻辑。

百度 spider 对常用的 http 返回码的处理逻辑是这样的：

404
404返回码的含义是“NOT FOUND”，百度会认为网页已经失效，那么通常会从搜索结果中删除，并且短期内spider再次发现这条url也不会抓取。

503
503返回码的含义是“Service Unavailable”，百度会认为该网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。对于网页返回503，百度spider不会把这条url直接删除，短期内会再访问。届时如果网页已恢复，则正常抓取；如果继续返回503，短期内还会反复访问几次。但是如果网页长期返回503，那么这个url仍会被百度认为是失效链接，从搜索结果中删除。

403
403返回码的含义是“Forbidden”，百度会认为网页当前禁止访问。对于这种情况，如果是新发现的url，百度spider暂不会抓取，短期内会再次检查；如果是百度已收录url，当前也不会直接删除，短期内同样会再访问。届时如果网页允许访问，则正常抓取；如果仍不允许访问，短期内还会反复访问几次。但是如果网页长期返回403，百度也会认为是失效链接，从搜索结果中删除。

301
301返回码的含义是“Moved Permanently”，百度会认为网页当前跳转至新url。当遇到站点迁移，域名更换、站点改版的情况时，推荐使用301返回码，尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长，但我们还是推荐大家这么做。

如果站点临时关闭，当网页不能打开时，不要立即返回404，建议使用503状态。503可以告知百度spider该页面临时不可访问，请过段时间再重试。
如果百度spider对您的站点抓取压力过大，请尽量不要使用404，同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接，如果那个时间站点空闲，那它就会被成功抓取了。
有一些网站希望百度只收录部分内容，例如审核后的内容，累积一段时间的新用户页等等。在这种情况，建议新发内容暂时返回403，等审核或做好处理之后，再返回正常状态的返回码。
站点迁移，或域名更换时，请使用301返回码。

百度 url http状态码

安科网

浅谈百度爬虫的HTTP状态码返回机制

pcgrass

pcgrass

相关推荐

人像特效还能这么用？百度大脑开放日用四大场景揭秘AI人像特效能力

Go实战项目推荐：开源版百度文库竟然是一个人完成的

百度世界2020|百度CTO王海峰发布百度大脑6.0，AI新基建加速产业智能化

百度AI新基建亮相2020服贸会最新人工智能成果全景展出

百度AI新基建亮相服贸会，CTO王海峰展示百度助推产业智能化硕果

百度CTO王海峰详解语言与知识完整布局

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

乌镇百度大脑开放日召开启动EasyDL产业智能创新大赛

Python灰帽子：黑客与逆向工程师的Python编程之道PDF高清完整版免费下载|百度云盘

百度发力新基建：2030年百度智能云服务器数量超过500万台

百度网盘无限下载器，无限下载下载助手，

C# 调用百度AI接口实现文字识别

尚硅谷2019最新大数据课程百度云

AI: 百度AI实战教学

百度CTO王海峰：飞桨深度学习平台是新基建的重要一环

vue-cli3关闭eslint语法检查

android百度地图定位服务

Android中应用百度地图API开发地图APP实例-显示百度地图

百度分享

百度超级链发布全新产品矩阵与生态合作计划，让信任的链接更加便捷

pcgrass