使用ABAP正则表达式解析HTML标签

AHuqihua

2019-06-28

需求就是我用ABAP的某个函数从数据库读取一个字符串出来，该字符串的内容是一个网页。

网页的form里包含了很多隐藏的input field。我的任务是解析出name为svyValueGuid的input field的值：FA163EEF573D1ED89E89C7FE5E7C4715

使用ABAP正则表达式解析HTML标签

最简单粗暴的做法是：利用ABAP的FIND FIRST OCCURRENCE关键字首先找到svyValueGuid的偏移量，然后从这个偏移量出发，再找到第一个>的偏移量，这样问题就化简为在子串type="hidden" value="FA163EEF573D1ED89E89C7FE5E7C4715"，这样问题就简单多了。但是这种办法比较笨重，代码很冗余。

有没有更快捷的办法呢？那就是使用ABAP regular expression，即正则表达式。

请看下列的测试代码：

REPORT ztest_interface.

DATA: lv_input TYPE string,

reg_pattern TYPE string.

lv_input = `<body>` &&

`<div class="Title">Jerry's Programming Skill survey</div>` &&

`<form action="Survey.htm?sap-client=001">` &&

`<input name="svyApplicationId" type="hidden" value="CRM_SURVEY_ACTIVITY">` &&

`<input name="svyValueGuid" type="hidden" value="FA163EEF573D1ED89E89C7FE5E7C4715">` &&

`<input name="SurveyId" type="hidden" value="JERRY_TEST">` &&

`<div Id="" class="Section1">` && `</form></body>`.

reg_pattern = '.*svyValueGuid(?:.*)value="(.*)">.*SurveyId.*'.

TRY.

DATA(lo_regex) = NEW cl_abap_regex( pattern = reg_pattern ).

DATA(lo_matcher) = lo_regex->create_matcher( EXPORTING text = lv_input ).

IF lo_matcher->match( ) <> abap_true.

WRITE:/ 'fail in input scan!'.

RETURN.

ENDIF.

DATA(lt_reg_match_result) = lo_matcher->find_all( ).

READ TABLE lt_reg_match_result ASSIGNING FIELD-SYMBOL(<match>) INDEX 1.

READ TABLE <match>-submatches ASSIGNING FIELD-SYMBOL(<sub>) INDEX 1.

data(lv_sub) = lv_input+<sub>-offset(<sub>-length).

WRITE:/ 'result: ', lv_sub.

CATCH cx_root INTO DATA(cx_root).

WRITE:/ cx_root->get_text( ).

RETURN.

ENDTRY.

执行结果：

使用ABAP正则表达式解析HTML标签

解决问题的核心思路是这个正则表达式：.svyValueGuid(?:.)value="(.)">.SurveyId.*

通过捕获分组操作符，一对小括号，将32位的GUID值进行捕获。这种解法比FIND FIRST OCCURANCE的代码量要少。

使用ABAP正则表达式解析HTML标签

要获取更多Jerry的原创技术文章，请关注公众号"汪子熙"或者扫描下面二维码:

使用ABAP正则表达式解析HTML标签

正则表达式 abap data

安科网

使用ABAP正则表达式解析HTML标签

AHuqihua

AHuqihua

相关推荐

shell模糊匹配与正则详解

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

Oracle数据库正则表达式使用场景代码实例

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

3个助你玩转正则表达式的利器

如何使用Grep命令查找多个字符串

C# 正则表达式

正则表达式常用通配符

正则表达式在NLP中应用

正则表达式匹配样例

正则表达式常用的字符类

用正则表达式验证表格的格式

SHELL正则表达式

02-re模块使用

正则表达式 I

AHuqihua