Linux 与 Windows 对UNICODE 的处理方式

努力减肥的胖子

2013-06-03

Linux 与 Windows 对于字符及字符串（无论是否 UNICODE模式）基本处理函数接口都遵循 POSIX标准，是一致的。Windows在这个基础上还在TCHAR.h中封装了自己的一个接口定义，以利于用 UNICODE宏就可以让程序在不同的环境中运行。

原本非UNICODE定义基于 char 类型，UNICODE定义基于 wchar_t 类型， Windows 在winnt.h中分别定义两个宏来代表这两种类型，

typedef char CHAR;

#ifndef _MAC
typedef wchar_t WCHAR; // wc, 16-bit UNICODE character
#else
// some Macintosh compilers don't define wchar_t in a convenient location, or define it as a char
typedef unsigned short WCHAR; // wc, 16-bit UNICODE character
#endif

然后基于以上定义定义了一系列 TCHAR 宏，这样，可以让你的程序轻松地在 UNICODE 及非 UNICODE环境之间移植，你只要使用 TCHAR相关的宏定义

在定义 wcs（wide char string 缩写）常量时，需要使用L 前缀的字符串常量，如。

wchar_t mywstring = L "my wide char string";

Windows 也提供了相应的封装宏定义 __T。

#ifdef UNICODE
#define __T(x) L ## x
...
#else
#define __T(x) x
...
#endif

在编程时，你应该使用 _T 或 _TEXT,他们都一样

/* Generic text macros to be used with string literals and character constants.
Will also allow symbolic constants that resolve to same. */

#define _T(x) __T(x)
#define _TEXT(x) __T(x)

当编译参数UNICODE有定义时，定义 _tcs* 字符串宏如下,其中函数或宏名字以"_"开头可以理解为不属于 POSIX 范围，亦即 linux中找不到相应函数。

#ifdef UNICODE
。。。略
/* String functions */

#define _tcscat wcscat
#define _tcschr wcschr
#define _tcscpy wcscpy
#define _tcscspn wcscspn
#define _tcslen wcslen
#define _tcsncat wcsncat
#define _tcsncpy wcsncpy
#define _tcspbrk wcspbrk
#define _tcsrchr wcsrchr
#define _tcsspn wcsspn
#define _tcsstr wcsstr
#define _tcstok wcstok

#define _tcsdup _wcsdup
#define _tcsnset _wcsnset
#define _tcsrev _wcsrev
#define _tcsset _wcsset

#define _tcscmp wcscmp
#define _tcsicmp _wcsicmp
#define _tcsnccmp wcsncmp
#define _tcsncmp wcsncmp
#define _tcsncicmp _wcsnicmp
#define _tcsnicmp _wcsnicmp

#define _tcscoll wcscoll
#define _tcsicoll _wcsicoll
#define _tcsnccoll _wcsncoll
#define _tcsncoll _wcsncoll
#define _tcsncicoll _wcsnicoll
#define _tcsnicoll _wcsnicoll

。。。略

当没有 UNICODE 定义时，_tcs* 宏定义指向普通操作

#else /* ndef _UNICODE */
。。。略
#define _tcscat strcat
#define _tcscpy strcpy
#define _tcsdup _strdup

#define _tcslen strlen
。。。略
#ifdef _MBCS
。。。略
#define _tcschr _mbschr

#define _tcscspn _mbscspn

#define _tcsncat _mbsnbcat

#define _tcsncpy _mbsnbcpy

#define _tcspbrk _mbspbrk

#define _tcsrchr _mbsrchr

#define _tcsspn _mbsspn

#define _tcsstr _mbsstr

#define _tcstok _mbstok

#define _tcsnset _mbsnbset

#define _tcsrev _mbsrev

#define _tcsset _mbsset

#define _tcscmp _mbscmp

#define _tcsicmp _mbsicmp

#define _tcsnccmp _mbsncmp

#define _tcsncmp _mbsnbcmp

#define _tcsncicmp _mbsnicmp

#define _tcsnicmp _mbsnbicmp

。。。略
#else /* !_MBCS */
。。。略
#define _tcschr strchr
#define _tcscspn strcspn
#define _tcsncat strncat
#define _tcsncpy strncpy
#define _tcspbrk strpbrk
#define _tcsrchr strrchr
#define _tcsspn strspn
#define _tcsstr strstr
#define _tcstok strtok
#define _tcsnset _strnset
#define _tcsrev _strrev
#define _tcsset _strset
#define _tcscmp strcmp
#define _tcsicmp _stricmp
#define _tcsnccmp strncmp
#define _tcsncmp strncmp
#define _tcsncicmp _strnicmp
#define _tcsnicmp _strnicmp
。。。略
#endif
#endif

可以注意到，_strnicmp 在linux 中对应 strncasecmp，而 _wcsnicmp 在linux中我没有找到相应功能函数。对于打开文件操作，如果文件名是以 UNICODE 格式存储的，在 MSVC2005之前使用 _tfopen 这个宏，在MSVC 2005 出现之后，你可以在第二个参数中使用 “ccs:UNICODE”来指定，如。FILE *fp = fopen(FILENAME, "rb,ccs=UNICODE");linux可能早已支持这种参数形式，可以参考linux man:fopen(3).如果没有指定ccs，linux将以你使用的第一个文件操作函数是 UNICODE的还是非UNICODE 的来决定。（,ccs=string

The given string is taken as the name of a coded character set and the stream is marked as wide-oriented. Thereafter, internal conversion functionsconvert I/O to and from the character setstring. If the ,ccs=string syntax is not specified, then the wide-orientation of the stream isdetermined by the first file operation. If that operation is a wide-character operation, the stream is marked wide-oriented, and functions to convert to thecoded character set are loaded. ）

unicode linux系统 char wchar_t

安科网

Linux 与 Windows 对UNICODE 的处理方式

努力减肥的胖子

努力减肥的胖子

相关推荐

Windows 程序设计（三）关于字符串

Unicode，UTF-8和UTF-16的区别与联系

基于php解决json_encode中文UNICODE转码问题

Golang 中的 Unicode 与 UTF-8

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

Golang中的Unicode与字符串示例详解

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

SQL SERVER字符串前加N转换为Unicode编码

正则表达式：去除Unicode

cookbook-在正则中使用Unicode

linux字符编码相关知识总结、file命令、iconv命令

ascii、unicode、utf-8、gbk

汉字字节数

putimage/loadimage在vs中标红报错在vs中将项目由Unicode字符集转多字符集

Oracle字符集的设置

有了这篇文章， Python 中的编码不再是噩梦

CentOS7设置中文字符集

Java将u开头的unicode字符串转换为中文

utf8字符集下的比较规则

在VBA编辑器中输入中文成了乱码

努力减肥的胖子