python根据unicode判断语言类型实例代码

haoshulianglove

2018-01-17

本文实例主要实现的是python根据unicode判断语言类型，具体如下。

实例代码：

def is_chinese(uchar): 
"""判断一个unicode是否是汉字""" 
  if uchar >= u'\u4e00' and uchar<=u'\u9fa5': 
    return True 
  else: 
    return False 
 
def is_number(uchar): 
"""判断一个unicode是否是数字""" 
  if uchar >= u'\u0030' and uchar<=u'\u0039': 
    return True 
  else: 
    return False 
 
def is_alphabet(uchar): 
"""判断一个unicode是否是英文字母""" 
  if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'): 
    return True 
  else: 
    return False 
 
def is_other(uchar): 
"""判断是否非汉字，数字和英文字符""" 
  if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)): 
    return True 
  else: 
    return False 
 
def B2Q(uchar): 
"""半角转全角""" 
  inside_code=ord(uchar) 
  if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符 
    return uchar 
  if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0 
    inside_code=0x3000 
  else: 
    inside_code+=0xfee0 
  return unichr(inside_code) 
 
def Q2B(uchar): 
"""全角转半角""" 
  inside_code=ord(uchar) 
  if inside_code==0x3000: 
    inside_code=0x0020 
  else: 
    inside_code-=0xfee0 
  if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符 
    return uchar 
  return unichr(inside_code) 
 
def stringQ2B(ustring): 
"""把字符串全角转半角""" 
  return "".join([Q2B(uchar) for uchar in ustring]) 
 
def uniform(ustring): 
"""格式化字符串，完成全角转半角，大写转小写的工作""" 
  return stringQ2B(ustring).lower() 
 
def string2List(ustring): 
"""将ustring按照中文，字母，数字分开""" 
retList=[] 
utmp=[] 
for uchar in ustring: 
if is_other(uchar): 
if len(utmp)==0: 
continue 
else: 
retList.append("".join(utmp)) 
utmp=[] 
else: 
utmp.append(uchar) 
if len(utmp)!=0: 
retList.append("".join(utmp)) 
return retList

总结

以上就是本文关于python根据unicode判断语言类型实例代码的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

unicode python python实例

haoshulianglove

0 关注 0 粉丝 0 动态

相关推荐

基于php解决json_encode中文UNICODE转码问题

用PHP的json_encode来处理中文的时候, 中文都会被编码, 变成不可读的, 类似”\u***”的格式，如果想汉字不进行转码，这里提供三种方法

86530296 2020-11-10

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

中文转换Unicode，目前有两种方式，自写工具类或引入第三方包，这里我推荐引入三方包，因为使用mvn配置非常简单，网上搜到的大多数都是自己写的工具类，试了一个，效果不是很好，因为把ASCII编码也转成Unicode格式了，虽然能用，但是可读性降低。最终放

88540591 2020-06-16

Golang中的Unicode与字符串示例详解

在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。被转换的整数值

89411051 2020-06-14

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

Windows 程序设计（三）关于字符串

C语言/C++语言，使用的字符串指针就是 char* 类型，C++中的字符串是 string，内部也是对 char* 的封装。操作系统的国际化，比如：Windows 系统不仅有英文的，也有中文的，韩文的，日文的，所以原来用一个 char 来表示一个英文字符

88384957 2020-06-12

SQL SERVER字符串前加N转换为Unicode编码

SQL SERVER搜索时select name=‘字符串‘时‘字符串‘默认会是ASCII码，而name一般是Unicode码，当‘字符串‘为中英文时，绝大部分ASCII码等于Unicode码，但如果‘字符串‘为中文生僻字，法文，韩文，日文等等情况‘字符串

84590091 2020-06-08

正则表达式：去除Unicode

* \p{L}或\p{Letter}：来自任何语言的任何形式的字母。* \p{Lu}或\p{Uppercase_Letter}：具有小写字母变体的大写字母。注意的是，正则中没有使用“\p{L}”，这是因为“\p{L}”也会过滤掉中文字符，需要注意

88540591 2020-06-04

cookbook-在正则中使用Unicode

<_sre.SRE_Match object; span=, match=‘???‘>

81214051 2020-06-03

linux字符编码相关知识总结、file命令、iconv命令

现代计算机存储文件有很多种编码方式，各个计算机系统、程序支持的编码格式不尽相同。字符集指字符的集合，不同的字符集支持不同的语言，ASCII字符集就只支持英文。字符集有对应码表，用来查找字符和做编码转换等；不表示最终编码方式。字符编码是指将字符集和二进制数建

88540591 2020-06-01

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

汉字字节数

欧美人就是喜欢直来直去，字符少，编码用得位数少；

82056521 2020-05-12

putimage/loadimage在vs中标红报错在vs中将项目由Unicode字符集转多字符集

int main(){ initgraph; loadimage; putimage; DrawMap(); system; return 0;}. 在Visual C++.NET中，默认的字符集是Unicode，这和Windows默认的字符集是一致的，不

84590091 2020-05-03

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

有了这篇文章， Python 中的编码不再是噩梦

Python 中编码问题，一直是很多 Python 开发者的噩梦，尽管你是工作多年的 Python 开发者，也肯定会经常遇到令人神烦的编码问题，好不容易花了半天搞明白了。反反复复，这个过程真是太痛苦了。今天我把大家在 Python 上会遇到的一些编码问题

honghao0 2020-04-24

CentOS7设置中文字符集

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

84590091 2020-04-22

Java将u开头的unicode字符串转换为中文

　　如果是一个很普通的字符串，不是json格式，就是一个字符串\u67e5\u8be2\u6210\u529f，怎么解析呢？String unicodeNum = matcher.group; // 匹配出每个字的数字，比如\u67e5，会匹配出67e5

85271041 2020-04-10

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

在VBA编辑器中输入中文成了乱码

3.按照如下步骤更改非Unicode程序的语言即可：控制面板=>时钟、语言和区域=>区域=>管理=>非Unicode程序的语言=>更改系统区域设置为中文=>重启电脑。

85271041 2020-03-08

python3字符串编码转换

编码转换：1、将文本已以二进制方式读取出来；2、将读取的二进制文本已改文本的编码方式进行解码成Unicode3、然后将解码后的Unicode编码成要转换的编码格式。s_gbk = s_unicode.encode # Unicode转换成gbk模式f =

84590091 2020-02-16

haoshulianglove

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号