flutter解决下载html中文乱码问题

目前的flutter版本貌似官方不支持gb2312、gbk等gb系列字符集的解析,这里要吐槽下!

问题分析

一般我们这么来下载一个网页的数据:

http.Response response = await http.get(url);
String result = response.body;

这里的response.body直接返回了字符串,那么是怎么做到的?我们跟进去看下源码:

/// [RFC 2616]: http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html
  String get body => _encodingForHeaders(headers).decode(bodyBytes);
Encoding _encodingForHeaders(Map<String, String> headers) =>
  encodingForCharset(_contentTypeForHeaders(headers).parameters['charset']);

这段代码的意思是根据response的headers中的charset,找到一个合适encoding解码器来进行解析

Encoding encodingForCharset(String charset, [Encoding fallback = LATIN1]) {
  if (charset == null) return fallback;
  var encoding = Encoding.getByName(charset);
  return encoding == null ? fallback : encoding;
}

这里最终是通过了Encoding.getByName这个方法获取到了一个encoding,那么看看flutter到底支持哪些字符集:

flutter解决下载html中文乱码问题

好吧,我是没有看到gb系列的字符集的影子,所以当然不能解析gbk等中文系列字符集了,那么怎么解决呢?

解决方案

第一个想到的方案是其他语言,比如java、c++等一定有解决方案,网上搜索了一下:

c/c++采用编码转换表实现gbk与unicode互转https://download.csdn.net/dow...

不依赖任何系统API,用c语言实现gbk/utf8/unicode编码转换https://blog.csdn.net/bladean...

Unicode与UTF-8互转(C语言实现)https://blog.csdn.net/tge7618...

解决方法是:先将gbk转成unicode,这个通过查表来实现,然后将unicode转成utf-8,这个解决方案其他语言都有现成的,dart没有,只好造个轮子:

https://github.com/jzoom/gbk2...

使用方法也很简单:

import 'package:gbk2utf8/gbk2utf8.dart';
 
 ...

 http.Response response = await http.get(url);
 String str = decodeGbk ( response.bodyBytes );

如有疑问,请加qq群854192563讨论

相关推荐