在 Go 语言中处理 Unicode

88941536

2013-05-24

如果‘Go’通常是指在公园散步，用Go语言处理Unicode码可以描述为不小心走进了雷区，比如，如果我们要获取从前端页面的一句简单字符串“Hello,世界”的长度.会得到什么结果？

>>> 13

等下，刚才发生了什么？长度难道不该是9么？其他额外的4个字符是从哪来的？在编译中，Go 实际上把字符串编码为一个byte.go不像Python2.x一样让你区分普通ASCII码并反编码处理字符串，所以go还是不能从将中文字符编码为byte的实现中抽离出来，因为中文字符在ASCII表示中占用3byte而普通字符只占用1byte，所以Go告诉你长度是 1*7+3*2=13.这对于那些想测试他们的ASCII字符串长度的人将是个令人迷惑的大水坑！看下面的例子

fmt.Print(string(hello[i]))

}

>>> Hello, äç

出问题了，好吧，‘世界’怎么变成了‘ äç’？也许我已经能听到你的咆哮了。。但是当你使用第二种range处理字符串，你确实可以这样处理

fmt.Print(string(c))

}

结果好了很多! 但我们确实不能这样做,为什么? 用一个小例子, 假设我们只是想用字符串中的每个字符与下个字符比较是否一样的. 简单的处理方式可能是这样：

func CompareChars(word string) { for i, c := range word { if i < len(word)-1 {
fmt.Print(string(word[i+1]) == string(c), ",")
}
}
}
...
CompareChars("hello")
>>> false,false,true,false,

可是使用ASCII的字符串作为入参，结果实在是太烂了！如果我们使用中文说你好的话情况会是这样：

CompareChars("你好好好")

>>> false,false,false,false,

很明显这些字符串永远不会相等，因为我们总是用‘好’和好的第一byte的ASCII码‘\xE5’比较。

那么该怎么办？如果我们探索的够深，就会发现go排除了unicode/utf8的引用包，这个包不提供特别多功能，但是却能是我们解决遇到的第一个问题，查询‘hello’字符串的长度：

>>> 9

好了，我们一开始期望的长度出现了。现在来升级一下我们先用到的CompareChars 函数，使它能比较Unicode编码。

func CompareChars(word string) { s := []byte(word) for utf8.RuneCount(s) > 1 { r, size := utf8.DecodeRune(s) s = s[size:] nextR, size := utf8.DecodeRune(s) fmt.Print(r == nextR, ",") } }
... CompareChars("hello")
>>> false,false,true,false, CompareChars("你好好好")
>>> false,true,true,

起作用了！

这个故事的寓意：工作时要非常小心，尤其是当与循环中的Unicode遍历字符串。最重要的是，在适当的情况下，使用内置的UTF-8封装，并牢记写测试要包含Unicode和ASCII字符串。

unicode 字符串函数 string

安科网

在 Go 语言中处理 Unicode

88941536

88941536

相关推荐

Windows 程序设计（三）关于字符串

基于php解决json_encode中文UNICODE转码问题

Golang 中的 Unicode 与 UTF-8

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

Golang中的Unicode与字符串示例详解

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

SQL SERVER字符串前加N转换为Unicode编码

正则表达式：去除Unicode

cookbook-在正则中使用Unicode

linux字符编码相关知识总结、file命令、iconv命令

ascii、unicode、utf-8、gbk

汉字字节数

putimage/loadimage在vs中标红报错在vs中将项目由Unicode字符集转多字符集

Oracle字符集的设置

有了这篇文章， Python 中的编码不再是噩梦

CentOS7设置中文字符集

Java将u开头的unicode字符串转换为中文

utf8字符集下的比较规则

在VBA编辑器中输入中文成了乱码

python3字符串编码转换

88941536