httpclient获取网页内容没设置User Agent导致有些网站抓不取到内容

loopstang

2013-05-29

log4j:WARN No appenders could be found for logger (org.apache.commons.httpclient.HttpClient).

log4j:WARN Please initialize the log4j system properly.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

<style type="text/css">

.clearfix:after {

content: ".";

display: block;

height: 0;

clear: both;

visibility: hidden;

}

.clearfix {

display:block;

}

.left {

float: left;

}

h1 {font-size: 20px;color: #6293BB;}

p {font-size: 14px;color: #6293BB;}

</style>

</head>

<body>

<div style="padding:50px 0 0 300px">

<h1>您的访问请求被拒绝</h1>

</div>

<div class="clearfix">

<div class="left" style="padding-left:120px">

<img src="/images/filenotfound.jpg" width="128" height="128" />

</div>

<div class="left" style="width:700px;padding:30px 0 0 30px">

<p>您可能使用了网络爬虫抓取ITeye网站页面！</p>

<p>ITeye网站不允许您使用网络爬虫对ITeye进行恶意的网页抓取，请您立刻停止该抓取行为！</p>

<p>如果您的网络爬虫不属于恶意抓取行为，希望ITeye网站允许你进行网页抓取，请和ITeye管理员联系，取得授权: webmaster<img src='/images/email.gif' alt="Email" />iteye.com</p>

</div>

</div>

<div style="padding:20px 0 0 500px">

</div>

</body>

</html>

HttpClient httpClient = new HttpClient();
		GetMethod getMethod = new GetMethod("http://www.iteye.com/");
		/**
		 * 设计USER_AGENT 如果不设置的话就禁止了改网页的内容
		 */
		String USER_AGENT="Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2";
		String User_Agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5; .NET CLR 1.1.4322; .NET CLR 2.0.50727; Alexa Toolbar; MAXTHON 2.0)";
		
		httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,User_Agent);//设置信息

httpclient iteye

loopstang

0 关注 0 粉丝 0 动态

相关推荐

.NET CORE HttpClient的使用方法

自从HttpClient诞生依赖，它的使用方式一直备受争议，framework版本时代产生过相当多经典的错误使用案例，包括Tcp链接耗尽、DNS更改无感知等问题。有兴趣的同学自行查找研究。在.NETCORE版本中，提供了IHttpClientFactory

84487600 2020-08-16

记一次解决RestTemplate和HttpClient请求结果乱码的问题

调用一个接口，发送POST请求，浏览器和Postman均返回正常，代码中用RestTemplate和HttpClient均返回乱码

似水流年梦 2020-08-09

20200726_java爬虫_使用HttpClient模拟浏览器发送请求

System.out.println(result);public static void main(String[] args) throws IOException {. System.out.println(result);

knightwatch 2020-07-26

httpClient请求将数据传递到接口中

　　　　　　　　　　　　(jsonObject.get("proxyHost").toString(), //第三方接口ip. //传入需要填写的请求的参数个数，比如接口要求传递参数为5，那么new NameValuePair[5]

fengchao000 2020-06-16

总结httpclient资源释放和连接复用

最近修改同事代码时遇到一个问题，通过 httpclient 默认配置产生的 httpclient 如果不关闭，会导致连接无法释放，很快打满服务器连接，主动关闭问题解决；后来优化为通过连接池生成 httpclient 后，如果关闭 httpclient 又会

标题无所谓 2020-06-14

HttpClient报错Timeout waiting for connection from pool

线上项目使用HttpClient请求第三方的HTTP资源，并发量高的时候，日志框报Timeout waiting for connection from pool. 出现这个异常是因为新的请求来的时候，需要到HttpClient的线程池里面获取一个连接，作

sicceer 2020-06-12

小心 HttpClient 中 FormUrlEncodeContent 的 bug

上传图片的时候会调用一个码云的一个 POST 接口来保存上传的图片，参数是通过 form-data 的方式传递的，在 POST 的时候报异常了，异常信息很诡异，具体信息和上面的是一样的：。然后再找上一层堆栈信息，Uri是一个分部类，你如果直接在 Githu

yanghui0 2020-06-09

HttpClient SendAsync

var client = new HttpClient(new HttpClientHandler { UseProxy = false });request.Content = new StringContent("This is a test

yanghui0 2020-06-09

【C#】HttpClient 的基本使用

创建一个 HttpClient 实例，这个实例需要调用 Dispose 方法释放资源，这里使用了 using 语句。接着调用 GetAsync，给它传递要调用的方法的地址，向服务器发送 Get 请求。

wanghongsha 2020-06-04

c# 使用HttpClient的post,get方法传输json

post 的方法找了白天才解决

hygbuaa 2020-05-28

HttpClient实现https调用

首先建立一个信任任何密钥的策略。代码很简单，不去考虑证书链和授权类型，均认为是受信任的：。HttpClient既能处理常规http协议，又能支持https，根源在于在连接管理器中注册了不同的连接创建工厂。当访问url的schema为http时，调用明文连接

jiaguoquan00 2020-05-26

httpclient源码分析之 PoolingHttpClientConnectionManager 获取连接（转）

主要作用就是分配连接，回收连接等。同一个route的请求，会优先使用连接池提供的空闲长连接。源码版本4.5.2，因为代码太多，很多不是自己关心的，为免看起来费力，这里代码贴的不全。省略代码的地方用省略号标注。setMaxPerRoute route的最大连

zhaolisha 2020-05-16

.Net 的 REST 库 RestSharp,及相关的 httpclient

.Net 的 REST 库 RestSharp,及相关的 httpclient:

wanghongsha 2020-05-05

httpclient框架实现接口自动化的思路（二）

似水流年梦 2020-04-27

HttpClient来自官方的JSON扩展方法

Serializing and deserializing JSON payloads from the network is a very. common operation for clients, especially in the upcoming

wanghongsha 2020-04-14

在.NET Core中检查证书的到期日期

在 NUnit 测试中，我需要检查证书的有效期。下面的代码片段可用于使用自定义证书验证回调检查任何证书属性。所有你需要做的就是在回调中读取你感兴趣的属性，这样你就可以在之后检查它们。

knightwatch 2020-04-11

HttClient工具使用

--gson工具，封装http用-->

nalanrumeng 2020-04-09

JAVA--利用HttpClient模拟浏览器登陆请求获取响应的Cookie

而这种网站,一般都会对请求进行账号密码的验证,验证的方式也有多种,需要具体分析.今天分析其中的一种情况:　　站点对登陆密码进行动态加密,作为Cookie响应给客户端,之后的请求需要携带加密后的密码进行访问。因为每次登陆生成一个新的加密密码,所以之前的密码会

hygbuaa 2020-03-27

HTTP客户端连接，选择HttpClient还是OkHttp？

HttpClient和OkHttp一般用于调用其它服务，一般服务暴露出来的接口都为http，http常用请求类型就为GET、PUT、POST和DELETE，因此主要介绍这些请求类型的调用

zergxixi 2020-03-24

Java 中使用 HttpClient 4.3.6 进行文件上传

import org.junit.Test;import java.io.File;File f = new File("/Path/of/your/file");"file",new FileInputStream

stoneechogx 2020-02-13

loopstang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号