Lua中获取utf8字符串长度的方法和自定义函数

canglangclient

2019-06-13

代码如下：

--- 获取utf8编码字符串正确长度的方法

-- @param str

-- @return number

function utfstrlen(str)

local len = #str;

local left = len;

local cnt = 0;

local arr={0,0xc0,0xe0,0xf0,0xf8,0xfc};

while left ~= 0 do

local tmp=string.byte(str,-left);

local i=#arr;

while arr[i] do

if tmp>=arr[i] then left=left-i;break;end

i=i-1;

end

cnt=cnt+1;

end

return cnt;

end

lua 的string库不支持处理utf-8编码的汉字。用lua要处理汉字还是很费劲的。

UTF8的编码规则：

1. 字符的第一个字节范围： 0x00―0x7F(0-127),或者 0xC2―0xF4(194-244); UTF8 是兼容 ascii 的，所以 0~127 就和 ascii 完全一致
2. 0xC0, 0xC1,0xF5―0xFF(192, 193 和 245-255)不会出现在UTF8编码中
3. 0x80―0xBF(128-191)只会出现在第二个及随后的编码中(针对多字节编码，如汉字)

这样我们可以利用lua强大的模式匹配，来实现我们要的效果，关键的处理有这么两个：
1. local _, count = string.gsub(str, "[^\128-\193]", ""),用来得到str中的字符数
2. for uchar in string.gfind(str, "[%z\1-\127\194-\244][\128-\191]*") do tab[#tab+1] = uchar end,用来把str中的每个字符映射到tab中

utf8 字符编码字符串函数 lua 字符字符串长度

canglangclient

0 关注 0 粉丝 0 动态

相关推荐

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

Notepad++ 使用Python 插件批量转换文本文件（字幕文件）为 UTF8

有时候从网上下载了中英文的字幕文件，字符编码是ANSI的，需要转换为UTF-8的编码格式。可以实现批量转换。在Search搜索框中输入：Python Script , 然后选择插件，再点击Install 安装。然后找到刚才保存的脚本，并执行。如果Pytho

学习备忘录 2020-01-04

mysql建数据库的字符集与排序规则

一般选择utf8.下面介绍一下utf8与utfmb4的区别。utf8mb4兼容utf8，且比utf8能表示更多的字符。unicode编码区从1 ～ 126就属于传统utf8区，当然utf8mb4也兼容这个区，126行以下就是utf8mb4扩充区，什么时候你

sofast 2019-12-29

utf8和utf8mb4的区别

MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用u

88540591 2019-12-26

MySQL乱码的原因和设置UTF8数据格式

MySQL使用时，有一件很痛苦的事情肯定是结果乱码。将编码格式都设置为UTF8可以解决这个问题，我们今天来说下为什么要这么设置，以及怎么设置。在编程语言中，我们为了防止中文乱码，会使用unicode对中文字符做处理，而为了降低网络带宽和节省存储空间，我们使

xiaobaif 2019-12-20

python2与python3编码（练习）

#_author:来童星#date:2019/12/9import jsons=‘star‘a=s.encode(‘utf8‘)print(s,type(s))# star <class ‘str‘>print(a.decode(‘utf8‘)

fgleeldq 2019-12-09

写代码注意了，千万不要在 MySQL 中使用 UTF-8

MySQL数据库一知半解？阿里架构师写得高性能MySQL文档你不能错过。正文开始：最近我遇到了一个bug，我试着通过Rails在以“utf8”编码的MariaDB中保存一个UTF-8字符串，然后出现了一个离奇的错误：。问题的症结在于，MySQL的“utf8

huaishuming 2019-12-07

实战经验：Mysql 字符集及排序规则

MySQL新建数据库时，字符集和排序规则如何选择？本文来简单总结一下。通常，为了统一前后端编码，尤其是设计到源代码、页面文件、页面输入以及数据库字符集等，若不相统一，往往会照成莫名其妙的乱码现象。总结排序规则是指对特定字符集下不同字符的比较规则。也可以简单

everlasting 2019-11-28

Python中 sys.setdefaultencoding(\"utf8\") 的作用详解

设置python默认字节流编/解码器按照utf8解码方式，把字节流编/解码为unicode；在将字节流使用str()方法转换为str对象时，会调用默认的encode函数，如果没有上述系统的默认编码设置，则自动使用‘ascii‘ codecs进行编码，对于非

88384957 2019-11-09

MySQL字符集utf8修改为utf8mb4

对于mysql 5.5 而言，如果不设定字符集，mysql默认的字符集是 latin1 拉丁文字符集；utf8mb4兼容utf8，且比utf8能表示更多的字符，是utf8字符集的超集。当然调整的最好方法是客户端，mysql数据库的字符集都修改为utf8mb

lpfvip00 2019-11-09

python基础字符编码转换

#python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码。#二进制转换为字符串，使用decode，此处二进制的编码格式如果填写错误可能会导致二进制无法转换为字符串，导致程序报错。#python3上默认

JakobHu 2019-11-09

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

PHP dirname(FILE)原理及用法解析

即使这个文件被其他文件引用，__file__始终是它所在文件的完整路径，而不是引用它的那个文件完整路径。dirname;得到的是__FILE__所在文件的上一层目录名。_FILE_ 得到的就是完整路径即 F:\Modoer_2.6_SC_UTF8\upl

wwwsurfphpseocom 2020-10-28

使用AJAX实现UTF8编码表单提交到GBK编码脚本无乱码的解决方法

<li><a href="utf8Form.html" rel="external nofollow" rel="external nofollow" rel="ext

learningever 2020-09-19

JVM系列之:String.intern和stringTable

它和String.intern有什么关系呢？在字符串对象的创建过程中，StringTable有起到了什么作用呢？一切的答案都在本文中，快来看看吧。intern是String类中的一个native方法，所以它底层是用c++来实现的。感兴趣的同学可以去查看下J

voiletbin 2020-07-26

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 2020-07-26

Oracle 修改字符集（AL32UTF8 转换成UTF8字符集）

warden00 2020-06-11

PHP无法连接MYSQL8.0一般处理办法

修改默认加密方式，默认编码

勇往直前 2020-06-04

windows系统修改cmd窗口utf-8编码格式

window操作系统默认编码格式是gbk编码，下面教大家如何临时修改成utf-8编码和永久默认为utf-8编码格式。直接输入“chcp 65001”，回车键执行，这时候该窗口编码已经是UTF-8编码了。按顺序找到HKEY_LOCAL_MACHINE\SOF

88236637 2020-06-03

canglangclient

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号