PHP 源码探秘 - 为什么 trim 会导致乱码

运行以下代码:
$tag = '互联网产品、'; $text = rtrim($tag, "、"); print_r($text);
运行,我们可能以为会得到的结果是 互联网产品 ,实际结果是 互联网产� 。为什么会这样呢?
原理
trim 函数文档
string trim ( string $str [, string $character_mask = " \t\n\r\0\x0B" ] )
该函数不是多字节函数,也就是说,汉字这样的多字节字符,会拿其头或尾的单字节来和后面的 $character_mask 对应的char数组进行匹配,如果在后面的数组中,则删掉,继续匹配。比如:
echo ltrim("bcdf","abc"); // df如下面的 demo 中的函数 string_print_char 所示:
、 由 0xe3 0x80 0x81 三字节组成,
品 由 0xe5 0x93 0x81 三字节组成。
所以在执行 rtrim 的时候,通过字节比对,会将 0x81 去掉,导致了最后出现了乱码。
源码精简版演示
查看 PHP7 的源码,然后提炼出下面的小 demo ,方便大家一起学习,其实PHP源码的学习并不难,每天进步一点点。
//
// main.c
// trim
//
// Created by 周梦康 on 2017/10/18.
// Copyright © 2017年 周梦康. All rights reserved.
//
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
void string_print_char(char *str);
void php_charmask(unsigned char *input, size_t len, char *mask);
char *ltrim(char *str,char *character_mask);
char *rtrim(char *str,char *character_mask);
int main(int argc, char const *argv[])
{
printf("%s\n",ltrim("bcdf","abc"));
string_print_char("品"); // e5 93 81
string_print_char("、"); // e3 80 81
printf("%s\n",rtrim("互联网产品、","、"));
return 0;
}
char *ltrim(char *str,char *character_mask)
{
char *res;
char mask[256];
register size_t i;
int trimmed = 0;
size_t len = strlen(str);
php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
for (i = 0; i < len; i++) {
if (mask[(unsigned char)str[i]]) {
trimmed++;
} else {
break;
}
}
len -= trimmed;
str += trimmed;
res = (char *) malloc(sizeof(char) * (len+1));
memcpy(res,str,len);
return res;
}
char *rtrim(char *str,char *character_mask)
{
char *res;
char mask[256];
register size_t i;
size_t len = strlen(str);
php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
if (len > 0) {
i = len - 1;
do {
if (mask[(unsigned char)str[i]]) {
len--;
} else {
break;
}
} while (i-- != 0);
}
res = (char *) malloc(sizeof(char) * (len+1));
memcpy(res,str,len);
return res;
}
void string_print_char(char *str)
{
unsigned long l = strlen(str);
for (int i=0; i < l; i++) {
printf("%02hhx\t",str[i]);
}
printf("\n");
}
void php_charmask(unsigned char *input, size_t len, char *mask)
{
unsigned char *end;
unsigned char c;
memset(mask, 0, 256);
for (end = input+len; input < end; input++) {
c = *input;
mask[c]= 1;
}
}PHP7 相关源码
PHP_FUNCTION(trim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 3);
}
PHP_FUNCTION(rtrim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 2);
}
PHP_FUNCTION(ltrim)
{
php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
}static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)
{
zend_string *str;
zend_string *what = NULL;
ZEND_PARSE_PARAMETERS_START(1, 2)
Z_PARAM_STR(str)
Z_PARAM_OPTIONAL
Z_PARAM_STR(what)
ZEND_PARSE_PARAMETERS_END();
ZVAL_STR(return_value, php_trim(str, (what ? ZSTR_VAL(what) : NULL), (what ? ZSTR_LEN(what) : 0), mode));
} 相关推荐
lynjay 2020-06-14
88384957 2020-06-12
zuihaobushi 2020-04-30
xiaohouye 2020-04-20
菇星獨行 2020-04-20
qscool 2020-04-16
Joymine 2020-03-04
CosEmon 2020-03-01
GoatSucker 2020-02-15
Joymine 2020-02-11
twater000 2020-02-01
ILVNMM 2020-10-26
PinkBean 2020-08-19
Seandba 2020-08-16
徐建岗网络管理 2020-07-28
AaronPlay 2020-06-13
herohope 2020-06-10
adwen00 2020-06-09
KilluaZoldyck 2020-06-06