Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。
JAXP是一种专门提供XML文档解析的Java接口,下面我们就来研究一下如何使用Apache Xerces-2 解析器来实现JAXP。
JAXP提供了一种DOM及SAX方式的解析器来处理XML文档,也就是工厂模式。你选择不同的工厂类就会有不同的处理方法。工厂类实际上是一个标准设计模式,你可以根据需要自行修改。
利用JAXP,你可以使用DocumentBuilderFactory来建立自己的DocumentBuilder类,或者使用SAXParserFactory来建立自己的SAXParser类。不同之处就在于DOM解析器是将整个文档读入内存并允许你以随机方式读取文档,而SAX解析器是通过呼叫句柄来解释XML文档数据的。下面我们仔细研究一下DocumentBuilder类。
通过在DocumentBuilderFactory类中呼叫newDocumentBuilder方法,我们可以建立一个DocumentBuilder类。你可以通过呼叫newInstance方法来建立多个DocumentBuilderFactory类。
例如,你可以这样建立一个新的DocumentBuilderFactory类:
DocumentBuilderFactorydbfactory = DocumentBuilderFactory.newInstance();
一旦有了工厂类的句柄,你就可以马上建立一个DOM解析器的实例了。下面是建立代码:
DocumentBuilder builder = dbfactory. newDocumentBuilder();
这样我们就建立了一个真正的DocumentBuilder类的实例。为了解析文档,你必须调用DocumentBuilder类的解析方法。解析方法会返回一个Document对象,就是你要操作的XML文档。
Listing A实现了一个简单的利用DocumentBuilderFactory和DocumentBuilder类的方法:
Listing A:
JAXPSample.java
import javax.XML.parsers.*;
import org.w3c.dom.*;
public class JAXPSample {
public static void main(String[] args) {
String filename = "sample.XML";
try {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder parser = factory.newDocumentBuilder();
Document d = parser.parse(filename);
}
catch (Exception e) {
System.err.println("Exception: "
+ e.getMessage());
}
}
}
DocumentBuilder类其实就是一个DOM解析器。利用JAXP的DocumentBuilder类的优势就在于它比其他XML解析器更轻便。
当通过DocumentBuilder接口使用DOM时,解析器会返回一个Document类。这个Document类很重要,因为它是完全符合W3C标准的,这意味这你可以将这个Document类和其他DOM解析器良好的结合起来。
例如你可以通过以下代码找回元素值:
String getXMLValue(Document doc, String name)
{
NodeListnlist=doc.getElementsByTagName(name);
String value = nlist.item(0).getFirstChild().getNodeValue();
return value;
}
这个方法用来寻找文档内与字符串一致的子节点。
本文作者Brian Schaffner是富士通咨询公司的副主任。他为富士通的技术咨询公司提供架构、设计和开发支持。