正则匹配标点

摘抄:

str=str.replaceAll("[\\pP‘’“”]","");

Unicode编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。

\pP其中的小写p是property的意思,表示Unicode属性,用于Unicode正表达式的前缀。

大写P表示Unicode字符集七个字符属性之一:标点字符。

其他六个是

L:字母;

M:标记符号(一般不会单独出现);

Z:分隔符(比如空格、换行等);

S:符号(比如数学符号、货币符号等);

N:数字(比如阿拉伯数字、罗马数字等);

C:其他字符

上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。

Java中用于Unicode的正则表达式数据都是由Unicode组织提供的。

Unicode正则表达式标准(可以找到所有的子属性)

http://www.unicode.org/reports/tr18/

各Unicode字符属性的定义,可以用一看看某个字符具有什么属性。

http://www.unicode.org/Public/UNIDATA/UnicodeData.txt

这个文本文档一行是一个字符,第一列是Unicode编码,第二列是字符名,第三列是Unicode属性,

以及其他一些字符信息。

相关推荐