通过HttpClient获取数据出现乱码的问题的解决
通过HttpClient获取数据后,最终解析出来的数据,针对某些请求会出现中文乱码的情况,而有的请求则不会。
检查代码发现
在实现的时候,为避免乱码的问题出现,返回给调用方的是HttpMethod.getResponseBody()这样的字节数据,同时也会将响应结果中的HttpMethodBase.getResponseCharSet()响应编码方式返回给调用方。
调用在在最终使用的过程中是按照如下方式使用的:
try { return new String(data, offset, length, charset); } catch (UnsupportedEncodingException e) { if (LOG.isWarnEnabled()) { LOG.warn("Unsupported encoding: " + charset + ". System encoding used"); } return new String(data, offset, length); }
也就是说,针对返回的结果,调用反为防止乱码的出现已经经过了编码处理。可是针对某些请求,中文仍旧会出现乱码的情况。
进一步分析发现,其实在结果返回之前,拿到HttpMethod.getResponseBodyAsString()的时候已经是乱码了。
既:在已经是乱码的情况下,无论经过什么样的处理,最终的结果仍旧是乱码。
这样一来,问题可以定位为HttpClient在读取response的内容的时候已经做了一次编码转换。
现在对http响应的编码进行分析。http响应的编码有两个部分,response头里的参数和页面开头的meta信息。
例如:浏览器首先是针对response头来设置页面charset的。而httpClient模拟页面也是采用相同方式。所以其实乱码跟meta无关。
解决办法,在连接网络之前,设置请求的编码类型,如下:
HttpClient client = ... client.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,DEFAULT_REQUEST_CHARSET);
相关推荐
创建一个 HttpClient 实例,这个实例需要调用 Dispose 方法释放资源,这里使用了 using 语句。接着调用 GetAsync,给它传递要调用的方法的地址,向服务器发送 Get 请求。