至顶网›软件频道 ›DB2中如何实现正则表达式

DB2中如何实现正则表达式

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

本文描述了如何实现一个用户定义函数（UDF），该函数将普遍可用的正则表达式匹配库与 DB2 集成在一起。我们通过示例使用了 pcre 库，但也可以用任何其它库替换它。

来源：IT专家网 2008年6月10日

为了进一步改进该函数的性能，我添加了对函数 pcre_study() 的调用，该函数是由模式匹配引擎提供的。该函数进一步分析了该模式，并将额外的信息存储在独立的结构中。然后，在实际的匹配期间使用这些额外的信息来加快处理速度。通过使用一个非常简单的模式和大约 4000 行的表，我获得了 5% 的执行时间的改善。当然，模式越复杂，差异将越显著。

我先前提到该实现假定模式在处理期间不会随行的不同而更改。当然，如果模式确实更改了，您可以进行少量的改写以再次编译一个模式。要这样做，有必要跟踪当前（已编译的）模式并在每次调用中将它与所提供的模式进行比较。也可以在高速暂存中维护当前模式。但必须将它复制到独立的缓冲区，并且不能通过指针模式直接引用它，因为这个指针或它所引用的数据可能会更改或变为无效。至于相应的代码更改，就当作练习留给读者了。

返回匹配子串
大多数模式匹配引擎提供了一种方法，返回与指定模式或其一部分相匹配的子串。如果想在 SQL 中使用这种能力，则必须使用不同的方法来实现匹配函数。给定的字符串可能包含不止一个匹配的子串。例如，当解析类似“abc = 123;”或“def = 'some text';”这样的字符串时，用户可能会希望检索由等号分隔的两个子串。您可以使用模式“\\w+\\s*=\\s*(\\d+|'[\\w\\s] *');”来表示适用于该字符串的语法规则。Perl 兼容的正则表达式允许您捕获等号两边的子串。最后，必须将要捕获的子串用括号括起来。我已经用该方式编写了第二个子串，但第一个子串不是这样编写的。用于该用途的最终模式是这样的：


(\\w+)\\s*=\\s*(\\d+|'[\\w\\s]*');

当把这个模式应用于字符串“abc= 123;”或“def = 'some text';”时，“abc”或“def”分别与“(\\w+)”匹配，空格和等号是通过“\\s*=\\s*”查找的，并用另外的“(\\d+|'[\ \w\\s*]')”涵盖了余下的子串。在“(\\d+|'[\\w\\s*]')”中，第一个选项与任何至少由一个数字“\\d+”组成的数匹配，而第二个选项解析任何由字母和空格组成的由单引号括起的字符串“'[\\w\\s]*'”。

在 DB2 中做到这一点的需求可以描述成：为一次 UDF 调用返回多个结果。换句话说，就是返回针对模式进行匹配的单个字符串的多个子串。DB2 的表函数是完成这一任务的完美工具。

实现表 UDF
和以前一样，必须在数据库中创建该函数。清单 8中的下列语句正是用于这一任务的：

清单 8. 注册名为 regex3 的表 UDF


CREATE FUNCTION regex3(pattern VARCHAR(2048), string CLOB(10M))
    RETURNS TABLE ( position INTEGER, substring VARCHAR(2048) )
    SPECIFIC regexSubstr
    EXTERNAL NAME 'regexUdf!regexpSubstr'
    LANGUAGE C
    PARAMETER STYLE DB2SQL
    DETERMINISTIC
    NOT FENCED
    RETURNS NULL ON NULL INPUT
    NO SQL
    NO EXTERNAL ACTION
    SCRATCHPAD 50
    NO FINAL CALL
    DISALLOW PARALLEL;

实现该函数的实际逻辑的 C 代码与清单 7中的代码非常相似，但根据表函数所必须满足的特殊需求对它进行了改编，如清单 9所示。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

DB2中如何实现正则表达式

业界热点: