精通正则表达式笔记--去除文本首尾的空白字符
关于去除文本首尾的空白字符,书中提到了四种方法:
# 第一种 s/^\s+// s/\s+$//
# 第二种 s/\s*(.*?)\s*$/$1/s
# 第三种 s/^\s*((?:.*\S)?)\s*$/$1/s
# 第四种 s/^\s+|\s+$//g
作者推荐第一种, 并认为其它三个都是不正确的。
下面以源字符串 'a' 为例,分析一下这几个正则表达式的匹配过程。
第一种:
s/^\s+//
- ^ 成功匹配到行的开头
- s+ 匹配 a , 结果匹配失败
- 整个表达式匹配失败
s/\s+$//
- s+ 匹配 a, 失败
- s+ 匹配行结尾,失败
- 整个表达式匹配失败
第二种:
s/\s*(.*?)\s*$/$1/s
- s, 首先 s 匹配 a,失败, 回溯, s 匹配 a 前边的位置, 成功
- (.*?) 优先不匹配, 保留一个可回溯状态
- s, 首先 s 匹配 a,失败, 回溯, s 匹配 a 前边的位置, 成功
- $, 匹配 a, 失败。
- 表达式匹配失败
- 检查有没有可回溯的状态, (.?)可回溯, . 匹配 a, 匹配成功
- s*,匹配 a 后面的位置
- $, 匹配到结尾
- 整个表达式匹配成功
第三种:
s/^\s*((?:.*\S)?)\s*$/$1/s
- ^, 匹配行开头
- s*, 匹配a前面的位置
- ((?:.S)?), . 匹配到 a,由于是贪婪模式,. 会继续向下匹配, 但是后面已经没有内容了,控制权交给 S, 接下来的S也无法匹配, . 可回溯,退还匹配到的 a,S 匹配到 a
- s*, 匹配到 a 之后的位置
- $, 匹配到结尾
正个表达式匹配成功
((?:.\S)?) 分组中的\S是为了强制 . 匹配完后进行回溯的,?是为保证表达式能够正常匹配空行。没有?的话, \S 就要求至少有一个字符。
第四种:
/^\s+|\s+$//g
- ^, 匹配到行开头
- s+,匹配 a, 失败
- 尝试第二个分支,s+,匹配 a, 失败
- 整个表达式失败
相关推荐
jyj00 2020-07-19
chensen 2020-11-14
lwnylslwnyls 2020-11-06
ATenhong 2020-10-15
yanzhelee 2020-10-13
佛系程序员J 2020-10-10
guojin0 2020-10-08
佛系程序员J 2020-10-08
bluewelkin 2020-09-16
wwzaqw 2020-09-04
zhongdaowendao 2020-09-02
favouriter 2020-08-18
奎因amp华洛 2020-08-15
一青年 2020-08-13
千锋 2020-08-10
nangongyanya 2020-08-09
dongxurr 2020-08-08
明天你好 2020-08-03
kyelu 2020-08-03