至顶网›软件频道 ›DB2中如何实现正则表达式

DB2中如何实现正则表达式

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

本文描述了如何实现一个用户定义函数（UDF），该函数将普遍可用的正则表达式匹配库与 DB2 集成在一起。我们通过示例使用了 pcre 库，但也可以用任何其它库替换它。

来源：IT专家网 2008年6月10日

下列查询试图从表 strTable 中找出包含注释文本的所有字符串。注释以“#”开头，所以模式是“#”后跟非空文本。


SELECT c1, str
FROM   strTable
WHERE  regex1('#\\s*\\w+', str) = 1;

结果只包含 c1 = 6 的行。


C1          STR
----------- -------------------------
          6 # comment;

  1 record(s) selected.

在第二个示例中，我们试图找到这种赋值形式的字符串；即“text = text”。为了进一步缩小范围，我们只查找那些右端为数值的赋值。将十六进制表示法作为有效数值对待。


SELECT c1, str
FROM   strTable
WHERE  regex1('\\w+\\s*=\\s*(\\d+|0x\\d\\d)', str) = 1;

除了 c1 为 2 或 5 的两行以外，其它行都不包含数值的赋值，因此不会出现在结果中：


C1          STR
----------- -------------------------
          2 variable = 1234;
          5 myVar = 0x00;

  2 record(s) selected.

改进性能
尽管上面的函数按照预期的方式工作，但还可以改进它以获得更佳的性能。注：函数内部的执行完成得越快，DB2 处理整个 SQL 语句的速度也就越快。

SQL 旨在处理多组行，这意味着通常会针对一个模式匹配多个行。在大多数情况下，模式本身对于整个 SQL 语句都是不变的；即，它不会随行的更改而更改。清单 5 中的 C 代码展示了对每一行都调用函数 pcre_compile() ，该函数将给定模式转换成内部表示法。

DB2 通过使用所谓的“高速暂存（scratchpad）”提供了在 UDF 调用之间传递信息的机制。此外，您可以标识特定调用“类型”；即它是对该 UDF 的第一次调用、普通调用还是最后一次（最终）调用。使用高速暂存和调用类型，有可能只对模式编译一次，然后将该已编译模式的内部表示法重用于对该 UDF 的所有后续调用。在最后一次调用时，释放在处理期间分配的资源。

如清单 6所示，对 CREATE FUNCTION 语句进行修改，告诉 DB2 向外部 C 代码提供高速暂存和调用类型：

清单 6. 将高速暂存和调用类型添加到 CREATE FUNCTION 语句


CREATE FUNCTION regex2(pattern VARCHAR(2048), string CLOB(10M))
    RETURNS INTEGER
    SPECIFIC regexPerf
    EXTERNAL NAME 'regexUdf!regexpPerf'
    LANGUAGE C
    PARAMETER STYLE DB2SQL
    DETERMINISTIC
    NOT FENCED
    RETURNS NULL ON NULL INPUT
    NO SQL
    NO EXTERNAL ACTION
          
            
    SCRATCHPAD 50
    FINAL CALL
          
    ALLOW PARALLEL;

UDF 入口点看起来很不一样，因为必须改写函数内部的逻辑。参数方面唯一的更改是使用 SQLUDF_TRAIL_ARGS_ALL 代替了 SQLUDF_TRAIL_ARGS ，如清单 7所示。