php截取字符串之截取utf8或gbk编码的中英文字符串示例

phpyounger

2014-03-12

微博的发言有字数限制，其计数方式是，中文算2个，英文算1个，全角字符算2个，半角字符算1个。
php中自带strlen是返回的字节数，对于utf8编码的中文返回时3个，不满足需求。
mb_strlen 可以根据字符集计算长度，比如utf8的中文计数为1，但这不符合微博字数限制需求，中文必须计算为2才可以。
google了下，找到一个discuz中截取各种编码字符的类，改造了下，已经测试通过.其中参数$charset 只支持gbk与utf-8。

代码如下：

$a = "s＠@你好";
var_dump(strlen_weibo($a,'utf-8'));

结果输出为8，其中字母s计数为1，全角＠计数为2，半角@计数为1，两个中文计数为4。源码如下：

代码如下：

function strlen_weibo($string, $charset='utf-8')
{
    $n = $count = 0;
    $length = strlen($string);
    if (strtolower($charset) == 'utf-8')
    {
        while ($n < $length)
        {
            $currentByte = ord($string[$n]);
            if ($currentByte == 9 ||
                $currentByte == 10 ||
                (32 <= $currentByte && $currentByte <= 126))
            {
                $n++;
                $count++;
            } elseif (194 <= $currentByte && $currentByte <= 223)
            {
                $n += 2;
                $count += 2;
            } elseif (224 <= $currentByte && $currentByte <= 239)
            {
                $n += 3;
                $count += 2;
            } elseif (240 <= $currentByte && $currentByte <= 247)
            {
                $n += 4;
                $count += 2;
            } elseif (248 <= $currentByte && $currentByte <= 251)
            {
                $n += 5;
                $count += 2;
            } elseif ($currentByte == 252 || $currentByte == 253)
            {
                $n += 6;
                $count += 2;
            } else
            {
                $n++;
                $count++;
            }
            if ($count >= $length)
            {
                break;
            }
        }
        return $count;
    } else
    {
        for ($i = 0; $i < $length; $i++)
        {
            if (ord($string[$i]) > 127)
            {
                $i++;
                $count++;
            }
            $count++;
        }
        return $count;
    }
}

utf8 gbk编码 php字符串截取 php字符串长度字符 php gbk

安科网

php截取字符串之截取utf8或gbk编码的中英文字符串示例

phpyounger

phpyounger

相关推荐

使用AJAX实现UTF8编码表单提交到GBK编码脚本无乱码的解决方法

ascii、unicode、utf-8、gbk

Golang 中的 Unicode 与 UTF-8

PHP dirname(FILE)原理及用法解析

Linux 中文乱码

python基础字符编码转换

JVM系列之:String.intern和stringTable

mysql URL

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

Oracle 修改字符集（AL32UTF8 转换成UTF8字符集）

PHP无法连接MYSQL8.0一般处理办法

windows系统修改cmd窗口utf-8编码格式

mysql多个字段模糊查询是否包含某个词

Mysql 常用语句实战（2）

Mysql创建数据库字符集的选择

hibernate连接数据库中文乱码

Spring Boot 整合 Shiro 实现登录认证与权限控制

Mysql的分页查询优化

utf8字符集下的比较规则

MariaDB 10.4.12 Stable 绿色版下载安装

phpyounger