正则表达式学习（一）--字符匹配

AHuqihua

2019-07-01

关注关注

文章首发于sau交流学习社区

一、前言

正则表达式是匹配模式，要么匹配字符，要么匹配位置。

正则里面的元字符太多了，没有系统性，可以分为：

（1）字符匹配攻略

（2）位置匹配攻略

二、字符匹配

包括：两种模糊匹配，字符数组，量词，分支结构。

1.1两种模糊匹配

正则精确匹配乜有意义的，比如正则/saucxs/，只能匹配字符串中的"saucxs"这个子串。

var regex = /saucxs/;
console.log(regex.test('saucxs'));    //true
console.log(regex.test('123saucxs4560'));   //true

正则很强大的地方就是，实现模糊匹配。

模糊匹配分为：（1）横向模糊匹配；（2）纵向模糊匹配。

1.1.1横向模糊匹配

横向模糊匹配指的是：一个正则可匹配的字符串的长度不是固定的，可以是很多种情况。

实现方式：使用量词。比如：{m,n}表示的连续出现最少m次，最多n次。

比如正则： /ab{2,5}c/表示匹配这样一个字符串：第一个字符是‘a’，接下来第2个到第5个字符是‘b’，最后是字符‘c’。

正则可视化形式如下：

RegExp：/ab{2,5}c/

正则表达式学习（一）--字符匹配

测试一下：

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log( string.match(regex) );   // ["abbc", "abbbc", "abbbbc", "abbbbbc"]

正则里的g是正则的一个修饰符，表示全局匹配，即按照顺序找到满足匹配的所有子串。

1.1.2纵向模糊匹配

纵向模糊匹配的是，一个正则匹配的字符串，具体到某一个字符时。

实现的方式：使用字符组。比如[abc]，表示该字符可以是‘a’，‘b’，‘c’中的任何一个。

比如正则/a[123]b/可以匹配到如下三种字符串'a1b'，'a2b'，'a3b'。

可视化过程：

RegExp：/a[123]b/

正则表达式学习（一）--字符匹配

测试一下

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log( string.match(regex) );    // ["a1b", "a2b", "a3b"]

横向和纵向匹配，能解决很多的正则匹配问题

1.2字符组

字符组只是其中一个字符

比如[abc]，表示匹配一个字符，它可以是'a'，'b'，'c'之一。

1.2.1范围表示法

如果字符组中字符特别多，怎么处理？可以使用范围表示法。

比如[123456abcdefGHIJKLM]，可以写成[1-6a-fG-M]。用连字符 - 来省略和简写。

如果要匹配'a'，'-',‘z’这三个字符中任意一个字符，怎么处理？

答：这个时候不能写成[a-z]，因为这个是表示的是小写字母中的任何一个字符。可以写成[-az]或[az-]或[a-z]。就是说要不放在开头，要不放在结尾，要么转义。

个人觉得用[a-z]最好，使用将连字符 - 转义成普通字符。

1.2.2排除字符组

纵向模糊匹配，还有一种情形：某一个字符可以是除了'a'，'b'，'c'之外的任何字符。

这个时候就需要使用排除字符组（反义字符组），比如¹，表示的是一个除'a'，'b'，'c'之外的任意一个字符。

字符组的第一位放^（脱字符），表示求反的意思。

1.2.3常见的简写形式

有了字符组的概念后，一些常见的符号我们就可以理解了，因为都是系统自带的简写形式。

正则表达式学习（一）--字符匹配

如果要匹配任意字符怎么办？可以使用 [dD]、[wW]、[sS] 和 [^] 中任何的一个。

1.3量词

量词也称为重复，掌握{m,n}的准确含义，只需要记住一些简写形式。

1.3.1简写形式

正则表达式学习（一）--字符匹配

正则RegExp：/a{1,2}b{3,}c{4}d?e+f*/

正则表达式学习（一）--字符匹配

1.3.2贪婪匹配与惰性匹配

看个栗子：

var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );  //  ["123", "1234", "12345", "12345"]

正则/d{2,5}/表示数字连续出现2到5次。会匹配第2位，第3位，第4位，第5位的连续数字。

但是他是贪婪的，会尽可能多的匹配。

还有一种就是懒惰的匹配（尽可能少的匹配）：

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );   // ["12", "12", "34", "12", "34", "12", "34", "56"]

正则/d{2,5}?/表示，虽然2到5次都行，当2个就够的时候，就不再往下尝试了。

惰性实现：通过在量词后面加个问号就能实现惰性匹配

正则表达式学习（一）--字符匹配

记忆方式：量词后面加个问号，问一问你知足了吗，你很贪婪吗？

RegExp：/a{1,2}?b{3,}?c{4}?d??e+?f*?/

正则表达式学习（一）--字符匹配

1.4多选分支

一个模式可以实现横向和纵向模糊匹配，而多选分支可以支持多个子模式任选其一。

具体形式：：(p1|p2|p3)，其中 p1、p2 和 p3 是子模式，用 |（管道符）分隔，表示其中任何之一。

比如：要匹配字符串good和nice，可以使用/good|nice/。

可视化形式如下：

RegExp：/good|nice/

正则表达式学习（一）--字符匹配

测试如下

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log( string.match(regex) );  // ["good", "nice"]

有个地方需要注意：我用 /good|goodbye/，去匹配 "goodbye" 字符串时，结果是 "good"：

var regex = /good|goodbye/g;
var string = "goodbye";
console.log( string.match(regex) );  // ["good"]

而把正则改成 /goodbye|good/，结果是：

var regex = /goodbye|good/g;
var string = "goodbye";
console.log( string.match(regex) );   // ["goodbye"]

也就是说，分支结构也是惰性的，即当前面的匹配上了，后面的就不再尝试了。

1.5案例分析

匹配字符，无非就是字符组，量词，分支结构的组合使用。

多练习一下：

1.5.1匹配16进制的颜色值

要求匹配：

#ffbbad
#Fc01DF
#FFF
#ffE

分析：

表示一个16进制字符，可以使用字符组[0-99a-fA-F]；

其中字符可以出现3或6次，需要使用量词和分支结构；

使用分支结构，需要注意顺序。

var regex = /#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g;
var string = "#ffbbad #Fc01DF #FFF #ffE";
console.log( string.match(regex) );  // ["#ffbbad", "#Fc01DF", "#FFF", "#ffE"]

可视化形式：

REgExp：/#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g

正则表达式学习（一）--字符匹配

1.5.2匹配时间

以24小时为例

要求匹配：

23:59
02:07

分析：

一共四位数字，第一位数字可以为[0-2]；

当第1位为'2'时，第2位可以是为[0-3]，其他情况，第2位为[0-9]；

第三位数字为[0-5]，第四位为[0-9]。

正则如下：

var regex = /^([01][0-9]|[2][0-3]):[0-5][0-9]$/;
console.log( regex.test("23:59") );   //true
console.log( regex.test("02:07") );   //true
console.log( regex.test("24:00") );    //false
console.log( regex.test("24:01") );     //false

注意：正则中使用了^和$，分别表示字符串开头和结尾。

如果要求可以匹配'7:9'，也就是说时分前面的'0'可以省略。

var regex = /^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/;
console.log( regex.test("23:59") );    // true
console.log( regex.test("02:07") );    //true
console.log( regex.test("7:9") );     //true

可视化形式：

RegExp：/^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/

正则表达式学习（一）--字符匹配

1.5.3匹配日期

比如要求yyyy-mm-dd格式

要求匹配：

2017-06-10
分析：

年，4位数字即可，可以用[0-9]{4}；

月，共12个月，分为两种："01","02",...,"09"和"10","11","12"，可以用(0[1-9]|1[0-2]);

日，最大31天，可以用(0[1-9]|12|3[01])。

正则如下：

var regex = /^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/;
console.log( regex.test("2017-06-10") );   
//true

可视化形式：

RegExp：/^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/

正则表达式学习（一）--字符匹配

注意：其实并不是很准确的，因为要考虑的还有是否是闰年，2月份特殊情况等情况。

1.5.4匹配id

要求从

<div id="container" class="main"></div>

提取出id="container"

最初想应该是这样的

var regex = /id=".*"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
// id="container" class="main"

可视化形式：

RegExp：/id=".*"/g

正则表达式学习（一）--字符匹配

因为 . 是通配符，本身就会匹配双引号的，而量词 * 又是贪婪的，当遇到container后面双引号时候，是不会停下来的，会继续匹配，直到遇到最后一个双引号为止。

解决办法：使用惰性匹配

var regex = /id=".*?"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
//  id="container"

其实这样也是有问题的。效率比较低，因为匹配原理会涉及到“回溯”这个概念。可以优化一下：

var regex = /id="[^"]*"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
//  id="container"

abc ↩

正则

AHuqihua

0 关注 0 粉丝 0 动态

关注关注

MySQL全面瓦解之查询的正则匹配详解

上一章查询的过滤条件，我们了解了MySQL可以通过 like % 通配符来进行模糊匹配。同样的，它也支持其他正则表达式的匹配，我们在MySQL中使用 REGEXP 操作符来进行正则表达式匹配。似，但又强大很多，能够实现一些很特殊的、复杂的规则匹配。如果

杨德龙 2020-11-11

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 2020-10-14

ASP删除img标签的style属性只保留src的正则函数

'功能:将IMG代码格式化为<img src="XXX" />格式,只保留SRC属性，去掉IMG标签的其他属性。

满地星辰 2020-09-16

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

liunx正则危险符号“*”星号

sed符号是一个替换符号，用于文件替换，现在我们像grep一样，把b替换成z，按照我最开始的写法，只要有b的都替换成z，所以写法是。sed “s/b*/z/g” 含义sed "s/查找字符/替换字符/全局替换"，但是下面的结果另外们大吃

lrjnlp 2020-07-19

正则 : 模式

贪婪模式和懒惰模式都会进行回溯；匹配两次相关的字符时，匹配到不符合要求的字符后，这个字符才算匹配完，然后继续匹配下一个字符；默认模式就是贪婪模式，正则会在满足要求的情况下尽可能多的匹配字符知道匹配到不符合要求的字符为止；模式符号)来表示正则的匹配模式，使用

qidu 2020-07-05

CTF-字符？正则？

通过读代码可以看出只要我们构造出符合正则表达式的字符串通过GET传参传过去就可以看到 key 即 flag. . （一个点）：表示可以匹配任何字符；{n,m} ：前面的字符重复4~7次；\ （反斜线）：后面的字符被转义；至此，我们可以对这道题的正则表达式进

flyingssky 2020-07-05

10、正则

pat = re.compile ## 此处的AA是正则表达式，用来取验证其他字符串是否符合AA. m = pat.search ## search字符串是被校验的内容，若不匹配，则返回None. print ## 找出至少一个或多个

flyingssky 2020-06-27

形式语言与自动机五正则语言的三个性质

自动机理论非常完美！！自动机的表述有纯数学形式的五元组形式、状态转移图、状态转移表。接下来以研究正则语言（3型）的性质为主。但是也要知道即使是更强的上下文无关文法，其描述能力也是受限的。上面的B、C找不到正则表达式，也就找不到有限自动机。DFA中的F指的是

RuoShangM 2020-06-17

[javascript] 获取正则子表达式里的内容

js中每一个括号匹配的内容可以被RegExp对象捕获到，存储在RegExp.$1…

jyj00 2020-06-16

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

简单问题简单做，今天的题目来自leetcode771. 宝石与石头，字符串相关的一道题，题目描述如下：。J 中的字母不重复，J 和 S中的所有字符都是字母。字母区分大小写，因此"a"和"A"是不同类型的石头。S 和

天高任鸟飞 2020-06-13

什么？你还不会身份证号码验证？最全的身份证正则验证js

var city={11:"北京",12:"天津",13:"河北",14:"山西",15:"内蒙古",21:"辽宁",22:"

Darklovy 2020-06-11

用它匹配大数据长文本，让你的处理效率提升 100 倍！

原来文本匹配的方式一直是用中规中矩的正则来做，最近在实际生产中由于数据量骤升，现有数据量提高了大约 3-4 倍，原本使用正则处理已经到了瓶颈，这次又有增量对生产来说可谓雪上加霜，而且随着正则词越加越多，匹配效率也越来越差，数据量的激增再加上正则词越加越多，

qidu 2020-06-08

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

模块-re模块

findall ：会匹配字符串中所有符合规则的项并返回一个列表，如果没有匹配到返回一个空列表。search ：会从头到尾从带匹配匹配字符串中取出第一个符合条件的项，后面即使有也不再继续

jyj00 2020-06-06

前端常用正则校验

非零开头的最多带两位小数的数字：^+?正数、负数、和小数：^?有1~3位小数的正实数：^[0-9]+?中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{

flyingssky 2020-06-04

node环境下console语句对非空数组输出时，会清空正则捕获组。

如代码所示，当我在console输出语句中对正则捕获RegExp.$X进行split分割,，结果后续的任何语句均无法读取到正则捕获组RegExp.$X的值。const args = RegExp.$1.split(‘,‘).map;console.log;

山水沐光 2020-05-26

正则注意事项

1， -o 仅显示匹配的内容，默认情况下grep显示对应的整行,如果要做统计的话,需要sed去除不要的部分, 但grep提供了仅显示需要的部分, 使sed脚本更简单.注意，grep 只支持匹配而不能替换匹配到的内容。grep 支持不同的匹配模式，比如默认

山水沐光 2020-05-25

mongodb正则$regex命令行简单使用

{ <field>: { $regex: /pattern/, $options: ‘<options>‘ } }

Buerzhu 2020-05-17

JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的.//那个时候自己正则还不算很精通, 也没有(?//比如像字面量 "abc\\\"", 则会匹配为 "a

zjcheerup 2020-05-14

正则表达式学习（一）--字符匹配

一、前言

二、字符匹配

1.1两种模糊匹配

1.1.1横向模糊匹配

1.1.2纵向模糊匹配

1.2字符组

1.2.1范围表示法

1.2.2排除字符组

1.2.3常见的简写形式

1.3量词

1.3.1简写形式

1.3.2贪婪匹配与惰性匹配

1.4多选分支

1.5案例分析

1.5.1匹配16进制的颜色值

1.5.2匹配时间

1.5.3匹配日期

1.5.4匹配id

相关推荐