hive中自定义RegexSerDe尝试
当原始数据中包好了诸如'\u0001'、'\u0002'、'\u0003'等hive默认的column分隔字符时,在select数据时就可能出现数据格式错乱的情况,为了避免这类现象,可以用自定义的RegexSerDe规避这类特殊字符。
例子:
ac18148213512592717614403|1351259272977|0.44|ulc|302|302^R670777442^RLBX001442114792309^R670777442^R2^R2??a±à??=KJ-0005,?ò?ònickangning^R^R^R^Rip^A^Rumid^A^RbuyerNick^Awnwangning^RStoreCode^AKJ-0005
上面是一条原始数据,格式是traceId|time|rpcId|appName|queryKey|extendValue,extendValue是一个复合字段,可用字符'\u0018'(^R)劈成至少9列,前8列是意义固定,后面的每列是一个kv对,kv的分隔符是'\u0001'(^A)。
对于这样的例子,如果尝试在创建hive表时存在如下指定:
ROW FORMAT
SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES
( "input.regex" = "(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*$)",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s")
然后在加载数据后做select时就会发现展现出来的最后一列在“ip”后面没有了。
通过检验发现RegexSerDe按指定的正则切分完全正确,但hive在组装返回结果时会根据特殊字符(^A,^B,^C三种)做“二次切分”,因为例子中“ip”后面恰好有个^A所以被截断了,又因为"ip"所在的列是表的最后一列,所以"ip"后面的内容被直接丢掉了,否则会错位到表的下一列。
解决的办法就是用自定义的MyRegexSerDe对特殊字符做简单替换,相比原RegexSerDe,只增加上一个简单逻辑:
for (int c = 0; c < numColumns; c++) {
try {
//对原数据的最后一列做特殊字符替换
if (c == numColumns - 1) {
row.set(c, m.group(c + 1).replace((char)1, ','));
} else {
row.set(c, m.group(c + 1));
}
} catch (RuntimeException e) {
partialMatchedRows++;
if (partialMatchedRows >= nextPartialMatchedRows) {
nextPartialMatchedRows = getNextNumberToDisplay(nextPartialMatchedRows);
// Report the row
LOG.warn("" + partialMatchedRows
+ " partially unmatched rows are found, " + " cannot find group "
+ c + ": " + rowText);
}
row.set(c, null);
}
}
然后打包上传,执行hive sql时加载jar路径和指定自定义的RegexSerDe,问题得以解决。