通过HttpClient获取数据出现乱码的问题的解决

通过HttpClient获取数据后,最终解析出来的数据,针对某些请求会出现中文乱码的情况,而有的请求则不会。

检查代码发现

在实现的时候,为避免乱码的问题出现,返回给调用方的是HttpMethod.getResponseBody()这样的字节数据,同时也会将响应结果中的HttpMethodBase.getResponseCharSet()响应编码方式返回给调用方。

调用在在最终使用的过程中是按照如下方式使用的:

try {
            return new String(data, offset, length, charset);
        } catch (UnsupportedEncodingException e) {

            if (LOG.isWarnEnabled()) {
                LOG.warn("Unsupported encoding: " + charset + ". System encoding used");
            }
            return new String(data, offset, length);
        }

 也就是说,针对返回的结果,调用反为防止乱码的出现已经经过了编码处理。可是针对某些请求,中文仍旧会出现乱码的情况。

进一步分析发现,其实在结果返回之前,拿到HttpMethod.getResponseBodyAsString()的时候已经是乱码了。

既:在已经是乱码的情况下,无论经过什么样的处理,最终的结果仍旧是乱码。

这样一来,问题可以定位为HttpClient在读取response的内容的时候已经做了一次编码转换。

现在对http响应的编码进行分析。http响应的编码有两个部分,response头里的参数和页面开头的meta信息。

例如:浏览器首先是针对response头来设置页面charset的。而httpClient模拟页面也是采用相同方式。所以其实乱码跟meta无关。

解决办法,在连接网络之前,设置请求的编码类型,如下:

HttpClient client = ...
client.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,DEFAULT_REQUEST_CHARSET);

相关推荐