Go语言中使用正则提取匹配的字符串

btr的心灵鸡杂汤

2018-02-11

本文为原创文章，转载注明出处，欢迎扫码关注公众号flysnow_org或者网站www.flysnow.org/，第一时间看后续精彩文章。觉得好的话，顺手分享到朋友圈吧，感谢支持。

我们在做爬虫的过程中，需要对爬取到的内容处理，比如说提取出我们需要的内容和文本，比如城市信息、人员信息等等，除了字符串查找外，使用正则匹配是比较优雅和方便的方案。

这篇文章，主要以提取URL中的日期和文章名为例，来举例说明如何使用正则提取字符串。

比如这个URL http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html，这是前段时间写的一篇关于goquery的使用教程。从这个URL我们可以看到有年月日的日期信息，还有最后面的文章的名称信息，这样一个URL，我们如何从中得到这些信息呢？这就要用到正则表达式的分组了。

正则表达式的分组，以括号()表示，每一对括号就是我们匹配到的一个文本，可以把他们提取出来。

通过上面URl的分析，我们定义正则表达式如下：

^http://www.flysnow.org/([\d]{4})/([\d]{2})/([\d]{2})/([\w-]+).html$

^$分别表示匹配的开始和结束，界定我们正则表达式的范围。

[\d]{4}表示我们要正好匹配4位数字，因为年份是4位，所以我们定义为匹配4位。后面的月份和天是2位，所以定义为2位。

[\w-]匹配字符串和中杠，加号(+)表示匹配1个或者多个。

然后他们都加了括号()，意味着我们要提取这些字符串。

下面看下完整的源代码。

flysnowRegexp := regexp.MustCompile(`^http://www.flysnow.org/([\d]{4})/([\d]{2})/([\d]{2})/([\w-]+).html$`)
params := flysnowRegexp.FindStringSubmatch("http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html")

for _,param :=range params {
	fmt.Println(param)
}

运行打印输出：

http://www.flysnow.org/2018/01/20/golang-goquery-examples-selector.html
2018
01
20
golang-goquery-examples-selector

FindStringSubmatch方法是提取出匹配的字符串，然后通过[]string返回。我们可以看到，第1个匹配到的是这个字符串本身，从第2个开始，才是我们想要的字符串。

fmt.Println("年份为："+params[1])
	fmt.Println("月份为："+params[2])
	fmt.Println("天数为："+params[3])
	fmt.Println("文章名为："+params[4])

这样我们需要的这篇文章的信息就被提取出来了。

正则对于处理文章很好用，关于更多Golang正则的使用，可以参考官方的这篇正则表达式的介绍。github.com/google/re2/…

正则 url go语言

btr的心灵鸡杂汤

0 关注 0 粉丝 0 动态

关注关注

MySQL全面瓦解之查询的正则匹配详解

上一章查询的过滤条件，我们了解了MySQL可以通过 like % 通配符来进行模糊匹配。同样的，它也支持其他正则表达式的匹配，我们在MySQL中使用 REGEXP 操作符来进行正则表达式匹配。似，但又强大很多，能够实现一些很特殊的、复杂的规则匹配。如果

杨德龙 2020-11-11

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 5评论 2020-10-14

ASP删除img标签的style属性只保留src的正则函数

'功能:将IMG代码格式化为<img src="XXX" />格式,只保留SRC属性，去掉IMG标签的其他属性。

满地星辰 2020-09-16

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

liunx正则危险符号“*”星号

sed符号是一个替换符号，用于文件替换，现在我们像grep一样，把b替换成z，按照我最开始的写法，只要有b的都替换成z，所以写法是。sed “s/b*/z/g” 含义sed "s/查找字符/替换字符/全局替换"，但是下面的结果另外们大吃

lrjnlp 2020-07-19

正则 : 模式

贪婪模式和懒惰模式都会进行回溯；匹配两次相关的字符时，匹配到不符合要求的字符后，这个字符才算匹配完，然后继续匹配下一个字符；默认模式就是贪婪模式，正则会在满足要求的情况下尽可能多的匹配字符知道匹配到不符合要求的字符为止；模式符号)来表示正则的匹配模式，使用

qidu 2020-07-05

CTF-字符？正则？

通过读代码可以看出只要我们构造出符合正则表达式的字符串通过GET传参传过去就可以看到 key 即 flag. . （一个点）：表示可以匹配任何字符；{n,m} ：前面的字符重复4~7次；\ （反斜线）：后面的字符被转义；至此，我们可以对这道题的正则表达式进

flyingssky 2020-07-05

10、正则

pat = re.compile ## 此处的AA是正则表达式，用来取验证其他字符串是否符合AA. m = pat.search ## search字符串是被校验的内容，若不匹配，则返回None. print ## 找出至少一个或多个

flyingssky 2020-06-27

形式语言与自动机五正则语言的三个性质

自动机理论非常完美！！自动机的表述有纯数学形式的五元组形式、状态转移图、状态转移表。接下来以研究正则语言（3型）的性质为主。但是也要知道即使是更强的上下文无关文法，其描述能力也是受限的。上面的B、C找不到正则表达式，也就找不到有限自动机。DFA中的F指的是

RuoShangM 2020-06-17

[javascript] 获取正则子表达式里的内容

js中每一个括号匹配的内容可以被RegExp对象捕获到，存储在RegExp.$1…

jyj00 2020-06-16

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

简单问题简单做，今天的题目来自leetcode771. 宝石与石头，字符串相关的一道题，题目描述如下：。J 中的字母不重复，J 和 S中的所有字符都是字母。字母区分大小写，因此"a"和"A"是不同类型的石头。S 和

天高任鸟飞 2020-06-13

什么？你还不会身份证号码验证？最全的身份证正则验证js

var city={11:"北京",12:"天津",13:"河北",14:"山西",15:"内蒙古",21:"辽宁",22:"

Darklovy 2020-06-11

用它匹配大数据长文本，让你的处理效率提升 100 倍！

原来文本匹配的方式一直是用中规中矩的正则来做，最近在实际生产中由于数据量骤升，现有数据量提高了大约 3-4 倍，原本使用正则处理已经到了瓶颈，这次又有增量对生产来说可谓雪上加霜，而且随着正则词越加越多，匹配效率也越来越差，数据量的激增再加上正则词越加越多，

qidu 2020-06-08

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

模块-re模块

findall ：会匹配字符串中所有符合规则的项并返回一个列表，如果没有匹配到返回一个空列表。search ：会从头到尾从带匹配匹配字符串中取出第一个符合条件的项，后面即使有也不再继续

jyj00 2020-06-06

前端常用正则校验

非零开头的最多带两位小数的数字：^+?正数、负数、和小数：^?有1~3位小数的正实数：^[0-9]+?中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{

flyingssky 2020-06-04

node环境下console语句对非空数组输出时，会清空正则捕获组。

如代码所示，当我在console输出语句中对正则捕获RegExp.$X进行split分割,，结果后续的任何语句均无法读取到正则捕获组RegExp.$X的值。const args = RegExp.$1.split(‘,‘).map;console.log;

山水沐光 2020-05-26

正则注意事项

1， -o 仅显示匹配的内容，默认情况下grep显示对应的整行,如果要做统计的话,需要sed去除不要的部分, 但grep提供了仅显示需要的部分, 使sed脚本更简单.注意，grep 只支持匹配而不能替换匹配到的内容。grep 支持不同的匹配模式，比如默认

山水沐光 2020-05-25

mongodb正则$regex命令行简单使用

{ <field>: { $regex: /pattern/, $options: ‘<options>‘ } }

Buerzhu 2020-05-17

JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的.//那个时候自己正则还不算很精通, 也没有(?//比如像字面量 "abc\\\"", 则会匹配为 "a

zjcheerup 2020-05-14

安科网

Go语言中使用正则提取匹配的字符串

btr的心灵鸡杂汤

btr的心灵鸡杂汤

相关推荐

MySQL全面瓦解之查询的正则匹配详解

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

ASP删除img标签的style属性只保留src的正则函数

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

liunx正则危险符号“*”星号

正则 : 模式

CTF-字符？正则？

10、正则

形式语言与自动机五正则语言的三个性质

[javascript] 获取正则子表达式里的内容

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

什么？你还不会身份证号码验证？最全的身份证正则验证js

用它匹配大数据长文本，让你的处理效率提升 100 倍！

linux正则应用场景

模块-re模块

前端常用正则校验

node环境下console语句对非空数组输出时，会清空正则捕获组。

正则注意事项

mongodb正则$regex命令行简单使用

JavaScript正则表达式匹配字符串字面量

btr的心灵鸡杂汤