Hive中的正则表达式

kuajiejuneng

2012-02-06

关注关注

刚刚做了一个hive的小测试，但是hive中的正则表达式写法让我痛苦不已，这里记录下问题和一些想法。

背景：

前几天拿来apache日志，用hive的正则进行匹配，发现匹配出来的字段算是NULL，但是我用RegexBuddy工具显示能够匹配的到啊！例子如下(我拿正常的apache日志来比较，我的apache日志格式被更改过)

1、apache日志格式：

[java]

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

2、正则表达式：

[plain]

([^ ]*) ([^ ]*) ([^ ]*) (-|\[[^\]]*\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?

3.工具匹配后结果：

Hive中的正则表达式
4.把正则拿到hive里面做create table操作，结果匹配出的全是null，之后查阅了资料吧正则写成如下格式就可以匹配了(多了转义符号)：

[java]

([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?

主要原因有两个之后会详细讲解。

原因：

1、首先理解下转义字符，就是把具有特殊意义的字符例如?或[等。编程"单纯"的字符串,例如"\?"就表示'?'本身。

2、但是在方括号里面情况有点复杂：

如果你想匹配*?+这样的字符，第一点想到的是[\*\?\+];

首先要理解的是，在hive中‘\’本身就代表转义字符，这与原有正则里面的转义，也有点不同，意思是：要经过两次转义后(hive

和正则)才会匹配，我们在背景里面单一的做了正则的转义，而没有做hive的转义(这里面有点混乱，需要读者自己理清楚)，但是在再加上一个转义符号后，就变得正常。我们的例子来说正常的hive写法应该为[\\*\\?\\+]。

这里只是基本的一些想法，也是看了别人的文章总结的：

Oracle,green plum,hive中正则表达式的元字符转义比较杂谈

在处理后正则语法就算成功，但是还是匹配不到字段，我用了最简单的正则也不能够匹配字符串里面的字段，后来做个测试，原因如下：

hive的正则表达式只支持全匹配，意思是：当读入一行日志做正则匹配时，必须从这一行的开始进行匹配到这一行的结束，不能够从中间进行匹配，就算只要中间的字段，也要用‘.’吸收掉前的或后面的”全部“字符。

错误的匹配方法(没有考虑hive转义，只有正则转义时，只匹配中间的部分）：

正确的方法：

正则表达式 hive font font-size

安科网

Hive中的正则表达式

kuajiejuneng

Oracle,green plum,hive中正则表达式的元字符转义比较杂谈

kuajiejuneng

相关推荐

shell模糊匹配与正则详解

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

Oracle数据库正则表达式使用场景代码实例

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

3个助你玩转正则表达式的利器

如何使用Grep命令查找多个字符串

C# 正则表达式

正则表达式常用通配符

正则表达式在NLP中应用

正则表达式匹配样例

正则表达式常用的字符类

用正则表达式验证表格的格式

SHELL正则表达式

02-re模块使用

正则表达式 I

kuajiejuneng