至顶网›软件频道 ›Xalan-Java XSLT处理器及其分割功能

Xalan-Java XSLT处理器及其分割功能

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

　　XML数据有各种各样的格式。然而，XML文档中的数据格式不一定符合目标系统的规范。XMLT模板常被采用来把一种格式转换为另一种格式。不幸的是，XSLT的方法仅仅提供一套有限的功能执行这些转换。

作者：中国IT实验室来源：中国IT实验室 2007年9月25日

　　XML数据有各种各样的格式。然而，XML文档中的数据格式不一定符合目标系统的规范。XMLT模板常被采用来把一种格式转换为另一种格式。不幸的是，XSLT的方法仅仅提供一套有限的功能执行这些转换。
　　
　　Apache软件基金的Xalan项目包括Java和C++两种版本的XSLT处理器。这个处理器提供解析XML文档的功能，并使用XSLT模板来转换它们。除了标准的XSLT转换以外，Xalan也提供一把扩展方法。在扩展库提供的这些方法中，有一个字符串tokenizer把字符串分割成一组token。
　　
　　问题领域
　　精确的一组XML转换用tokenize方法。任何时候，当你需要把字符串以一致的样式分解为子串，可以采用tokenize方法。实际上，tokenize方法是一个XSLT方法，它带两个参数。第一个参数指定要被分割的字符串。第二个参数指定把字符串分解为一组字符串token的分隔符。
　　
　　tokenize方法的结果是一组表示token的节点。这些token和节点可以使用iterator或者作为单个值来处理。你可以用tokenizer把字符串分解为一组单个值，从一个长字符串获取单个token。
　　
　　例子
　　为了举例说明tokenize方法的用法，我们看一个使用它的例子。下面是包含需要我们分割的字符串的一个XML文档：
　　
　　<CustomerAddress>
　　<Address1>9399 W Higgins Street</Address1>
　　<Address2>Rosemont, IL 60018</Address2>
　　</CustomerAddress>
　　这个例子演示了系统的一个客户地址记录，包含两行地址。这是在系统中一个相当普遍的情形，地址信息仅当发邮件时使用，而实际的城市、州和邮编信息并不特别重要。不幸的是，许多系统希望地址信息被分成城市、州和邮编。需要一个机制把组合的<Address2>元素分成单独的城市、州和邮编元素。
　　
　　方案
　　为了把数据以恰当的格式提供给目标系统，我使用Xalan的tokenize扩展功能。这个方法基于一组分割符把一个字符串，比如像地址，分割成多个token。如果没有指定分割符，使用默认的空格符号作为分割符。在我们的例子中，使用的分割符包括空格符号和逗号。
　　
　　我们从XSLT模板创建表格开始。下面是我们期待的经过转换得来的输出：
　　
　　<CustomerAddress>
　　<Address>9399 W Higgins Street</Address>
　　<City>Rosemont</City>
　　<State>IL</State>
　　<Zip>60018</Zip>
　　</CustomerAddress>
　　正当你看到的那样，我们想把<Address1>元素转换成<Address>元素，并把<Address2>元素分割成<City>、<State>和<Zip>元素。为使用tokenize方法，我们如下创建一个模板来调用它：
　　
　　<?xml version="1.0" encoding="UTF-8"?>
　　<xsl:stylesheet version="1.0"
　　xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
　　xmlns:xalan="http://xml.apache.org/xalan">
　　<xsl:template match="/">
　　<xsl:for-each select="//CustomerAddress">
　　<Address><xsl:value-of select="Address1"/></Address>
　　<City><xsl:value-of select="xalan:tokenize(Address2, ' ,')[1]"/></City>
　　<State><xsl:value-of select="xalan:tokenize(Address2, ' ,')[2]"/></State>
　　<Zip><xsl:value-of select="xalan:tokenize(Address2, ' ,')[3]"/></Zip>
　　</xsl:for-each>
　　</xsl:template>
　　</xsl:stylesheet>
　　
　　有两个地方需要特别注意。第一个在<xsl:stylesheet>元素里面。这里，我们定义了xalan名字空间。这个很重要，因为tokenize方法是xalan名字空间的一部分。如果没有恰当的名字空间定义，处理器不会知道xalan名字空间。
　　
　　第二需要注意的是一组叫City, State和Zip的元素。对每一个这些元素，我们调用tokenize方法。tokenize方法总是返回一个nodeset。为了给这些元素提供单个值，必须给nodeset的单个节点赋值。为了做到这一点，我们给tokenize调用的前面添加一个索引（即，[1]，[2]，[3]）。
　　这些索引指示出取出哪个token。City是地一个token，State是第二个token，Zip是第三个。
　　
　　tokenize方法自身带有两个参数。第一个参数是我们分割的值（这个例子中是<Address2>元素）。第二个参数是分隔符列表。我们使用包含在字符串‘ ，’――包含一个空格符号和一个逗号中的分隔符分割这个字符串。
　　
　　在XML转换中分割字符串很普遍。为了无缝的处理这个问题，Apache XML项目和Xalan组已经添加了一个叫做tokenize的扩展方法来处理XML数据值的分割。访问Xalan网页，可以发现更多关于Xalan-Java XSLT处理器和tokenize方法的信息。

查看本文来源

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

业界热点:

数字化转型东数西算自动驾驶智能制造云计算元宇宙虚拟人物联网算力网络数字孪生人工智能区块链开源大数据