JDOM与XML解.docx
《JDOM与XML解.docx》由会员分享,可在线阅读,更多相关《JDOM与XML解.docx(15页珍藏版)》请在冰豆网上搜索。
JDOM与XML解
JDOM与XML详解
JDOM让XML在Java中比以前任何时候都容易使用
以前,可能使用一部分Java的一部分库类来操作XML数据结构。
那么,JDOM(JavaDocumentObjectModel)的要点又是什么,为什么开发人员需要它?
对Java-optimizedXML数据操作的JDOM是开放源代码。
虽然它很像WorldWideWeb联盟(W3C)的DOM,但是它是一个可供选择的对象模型,这个模型不是建立在DOM或者基于DOM的模型之上的。
主要的不同是DOM作为language-neutral建立并且用于HTML页面的JavaScript操作,JDOM作为Java-specific建立,因此具有了Java本身的优点,包括methodoverloading,collections,reflection,andfamiliar。
对于Java编程人员来说,JDOM倾向于探索更多的本身的能力和好处。
这个很象Java-optimizedRMI(remotemethodinvocation)库探索更多本身的能力,而不是象language-neutralCORBA(CommonObjectRequestBrokerArchitecture)那样。
在jdom.org上的开放代码Apache-style(commercial-friendly)版本中,可以找到JDOM。
它是协作设计、开发的产物,它拥有多达3,000多个志愿人员。
这个库同时也被Sun'sJavaCommunityProcess(JCP)作为JavaSpecificationRequest(JSR-102)接受,同时正在一步一步的成为一个正式的Java规范。
下面一系列的文章将针对JDOM提供技术说明。
文章提供了关于重要类的信息。
下篇文章将给一些关于怎样在的Java程序里面使用JDOM的内容。
JDOM包结构
JDOM库由六个包组成。
第一个org.jdom包支持包括了一个XML文档,同时包括:
Attribute,CDATA,Comment,DocType,Document,Element,EntityRef,Namespace,ProcessingInstruction,以及Text。
如果对XML很熟悉,类名将帮助理解类的含义。
下来的org.jdom.input包,它支持类用于建立XML文档。
最主要也是重要的类是SAXBuilder。
SAXBuilder通过监听输入简单的针对XML(SAX)事件的API建立文档。
当想从一个文件或者其它流来建立文档的时候,可以使用SAXBuilder。
它使用SAX分析器来读取流,然后依据SAX分析器的返回来建立文档。
这个设计的一个好的方面是分析器的工作越快,,SAXBuilder的工作也就越快。
另外一个主要的输入类是DOMBuilder。
DOMBuilder从DOM树建立。
这个类很容易从先前的DOM树中获得,而要一个JDOM版本代替。
。
对于设计人员是没有限制的。
例如:
现在Xerces要在比SAX低水平时操作XercesNativeInterface(XNI),它可以作出判断去做一个XNIBuilder来支持一些分析器的规则,不被SAX暴露。
ResultSetBuilder是一种受欢迎的人,他们投稿给JDOM工程。
这样让JDBC的更加坚固,并且建立了SQL的XML文档表达模式,包括了许多关于那些是组成部分那些是属性的配置。
org.jdom.outpu包支持类输出XML文档。
最重要的类是XMLOutputter。
它为了将文档输出到文件,流,以及sockets将其转化为字节流。
类XMLOutputter又很多奇特的配置选项来支持原始输出,恰当的输出,或者压缩输出以及其它方式。
它是一个相当复杂的类。
这也许就是为什么这个不在DOMLevel2存在的原因。
另外的输出包括了类SAXOupputter,它根据文档内容产生了SAX事件。
虽然表面上看很神秘,但是这个类在XSLT转换中是非常有用的,因为SAX事件比字节更有效传输文档数据。
这里同样有类DOMOutputter,它建立了DOM树文档表示。
一个有趣的设计是JTreeOutputter,它只有很少的一些代码,它建立了Jtree来文档表示。
用ResultSetBuilder联合,使用简单的代码,就可以完成SQL查询和队列遍历。
注意,不象DOM,开发人员不会将文档打包。
这就产生了一个模式,可以使用类保存数据,许多的类构造了数据,并且许多其它的类放弃了数据。
org.jdom.transform和org.jdom.xpath包的类支持建立XSLT转化和Xpath查找。
最后是org.jdom.adapters包中类支持在DOM内部进行交流。
库用户不需要访问这个库的类。
每个DOM执行过程都对每步任务有不同的方法名,所以适配器将标准调用转换为parser-specific调用。
JavaAPIforXMLProcessing(JAXP)对于这个问题给出其它的一些解决方法,实际上是对于类的需要,但是一些类仍然保留,因为不是所有的分析器都支持JAXP,或者JAXP不是任何地方都安装了,并且版本正确。
建立一个文档
文档由org.jdom.Documentclass来辅助建立。
可以象下面这样建立一个文档:
//Thisbuilds:
Documentdoc=newDocument(newElement("root"));
或者可以由一个文件,流,系统ID,或者URL建立文档:
//Thisbuildsadocumentofwhatever'sinthegivenresource
SAXBuilderbuilder=newSAXBuilder();
Documentdoc=builder.build(url);
在JDOM中将一些调用组合在一起,可以很容易的建立一个简单的文档:
//Thisbuilds:
Thisistheroot
Documentdoc=newDocument();
Elemente=newElement("root");
e.setText("Thisistheroot");
doc.addContent(e);
如果是个有经验的用户,或许可以使用"methodchaining,",在有多个方法的时候依次被调用。
因为固定的方法返回产生的对象。
如下:
Documentdoc=newDocument(
newElement("root").setText("Thisistheroot"));
作为比较,这里给出如何使用JAXP/DOM建立同样的文档:
//JAXP/DOM
DocumentBuilderFactoryfactory=DocumentBuilderFactory.newInstance();
DocumentBuilderbuilder=factory.newDocumentBuilder();
Documentdoc=builder.newDocument();
Elementroot=doc.createElement("root");
Texttext=doc.createText("Thisistheroot");
root.appendChild(text);
doc.appendChild(root);
用SAXBuilder建立
早期,SAXBuilder建立了一个可以从任何byte-oriented资源建立文档的机制。
默认的SAXBuilder()在后台使用JAXP选择SAX剖析器。
如果要改变剖析器,可以设置javax.xml.parsers.SAXParserFactory系统特性指向SAXParserFactory,由的剖析器保证运行。
对于Oracle9iRelease2XML剖析器,可以这样使用:
java-Djavax.xml.parsers.SAXParserFactory=
oracle.xml.jaxp.JXSAXParserFactoryYourApp
对于Xerces剖析器,可以这样来代替:
java-Djavax.xml.parsers.SAXParserFactory=org.apache.xerces.jaxp
.SAXParserFactoryImplYourApp
如果没有安装JAXP,SAXBuilder默认为ApacheXerces。
一旦建立一个SAXBuilder实例,就可以设置一些道具,包括:
setValidation(booleanvalidate)
这个方法在建立中告诉剖析器针对DocumentTypeDefinition(DTD)是否有效。
默认是关闭的。
使用DTD是关于文档的DocType的一个参考。
针对其它DTD是不可能有效的,因为没有剖析器支持这个能力。
setIgnoringElementContentWhitespace(booleanignoring)
这个方法告诉剖析器是否忽视调用whitespace的元素目录。
每个XML1.0说明,在元素目录中的whitespace必须剖析器保存,但是针对一个DTD确认需要确认剖析器知道某些文档的部分没有被声明支持whitespace,则任何在那个区域的whitespace都是"ignorable."这个默认是关闭的。
这个对于部分存储并不是最好的,除非要"roundtrip"一个文档,并且将输入作为输出。
注意,这个标记只有确认打开时是激活的,而且确认使得执行速度减慢,所以最好在确认已经使用的情况下再使用。
setFeature(Stringname,Stringvalue)
这个方法再SAX剖析器的后台做一些设置。
这是个无处理的传递调用,所以要非常小心的使用,因为设置错误(例如tweakingnamespaces)将会毁坏JDOM。
此外,依靠任何parser-specific都有一定的便捷性。
这个调用对于计划确认的授权很有用。
setProperty(Stringname,Objectvalue)
这个方法再SAX剖析器的后台做一些设置。
这同样是个无处理的传递调用,对于高级用户同时拥有了高危险性和很高的适用性,特别针对于计划确认。
将方法组合,下面的代码在确认打开同时忽视ignorablewhitespace的情况下,使用JAXP-selected剖析器读取当地文件。
SAXBuilderbuilder=newSAXBuilder();
builder.setValidation(true);
builder.setIgnoringElementContentWhitespace(true);
Documentdoc=builder.build(newFile("/tmp/foo.xml"));
通过XMLOutputter建立文档
一个文档可以以多种格式输出,但是最常用的是字节流。
在JDOM中,XMLOutputter类提供了这种特性。
默认的构造器试图无错误的输出在内存中存储的文档。
下面的代码提供了针对文件原始的表示。
//Rawoutput
XMLOutputteroutp=newXMLOutputter();
outp.output(doc,fileStream);
如果担心whitespace,可以清除空白:
//Compressedoutput
outp.setTextTrim(true);
outp.output(doc,socketStream);
如果要打印出人们习惯的样式,可以添加缩进的空白并且换到新行:
outp.setTextTrim(true);
outp.setIndent(" ");
outp.setNewlines(true);
outp.output(doc,System.out);
当打印一个已经格式化空白的文档,需要确认是可以清理的。
否则,必须格式化,这可能很难看。
操作元素树
JDOM让操作元素树很容易。
得到根部元素:
Elementroot=doc.getRootElement();
Togetalistofallitschildelements:
ListallChildren=root.getChildren();
通过名字得到指定元素:
ListnamedChildren=root.getChildren("name");
根据给定名得到第一个元素:
Elementchild=root.getChild("name");
getChildren()调用返回的List是一个java.util.List,一个所有Java程序员都知道的List接口操作。
列表的活动性很有趣。
任何List的改变将会在后台的文档中显示出来。
//Removethefourthchild
allChildren.remove(3);
//Removechildrennamed"jack"
allChildren.removeAll(root.getChildren("jack"));
//Addanewchild,atthetailoratthehead
allChildren.add(newElement("jane"));
allChildren.add(0,newElement("jill"));
使用List意味着不需要添加众多的方法就可以进行多个元素的操作。
为了方便,无论是在最后添加元素还是删除已命名的元素,元素本身都拥有了相应的方法,则不需要在操作之前获得List:
root.removeChildren("jill");
root.addContent(newElement("jenny"));
JDOM的一个优点是它可以很容易在文档内部或者在文档之间移动元素。
代码都是一样的:
Elementmovable=newElement("movable");
parent1.addContent(movable); //place
parent1.removeContent(movable);//remove
parent2.addContent(movable); //add
使用DOM,移动元素是不容易的,因为在DOM中,元素是和建立工具绑定的。
因而,DOM元素在文档之间移动必须是有关系的"imported"。
关于JDOM有一件必须注意的就是移动元素之前先要添加,所以你不能建立一个循环树。
有个detach()方法可以分离/添加一条线:
parent3.addContent(movable.detach());
如果在添加一个元素到另外一个父接点之前忘记了分离它,库将会抛出一个异常。
库也会检查元素的名字和内容,确认它们不包括不适当的字符,就像空白。
它同样还有其它的规则,例如只有一个根元素,相容的名字空间声明,注释和CDATA部分里面没有被禁止的字符序列,等等。
这种特性使得在进程中尽可能早的去检查"well-formedness"错误变成可能。
操作元素属性
元素属性:
..。
对于元素,可以用命名属性值任何名字:
Stringval=table.getAttributeValue("width");
对于执行特殊的操作,例如类型变化,也可以作为对象得到属性:
Attributeborder=table.getAttribute("border");
intsize=border.getIntValue();
使用setAttribute()设置或者改变属性:
table.setAttribute("vspace","0");
使用removeAttribute()删除一个属性:
table.removeAttribute("vspace");
关于文本内容的处理
元素文本内容就像:
Acooldemo
在JDOM中,文本直接可以被调用使用:
Stringdesc=description.getText();
只要注意,因为XML1.0规范需要空白被保存,返回"\nAcooldemo\n"。
当然,作为实际编程人员经常的不想面对空白的格式,所以当忽视了周围的空白的时有了简单的方法:
StringbetterDesc=description.getTextTrim();
如果需要空白在图片外,需要getTextNormalize()方法规格化空白。
对于文本内容是很便利的:
Sometimesyouhavetextcontentwithformatting
spacewithinthestring.
通过setText()方法改变文本内容:
description.setText("Anewdescription");
文本里面的任何特殊字符都被相应的字符解释,并且空格在输出中有了恰当的意义。
例如:
element.setText("content");
内部存储以字符保存文字串。
torewillkeepthatliteralstringascharacters。
不需要盲目的对内容分解。
在输出时:
content
这些行为保持了早期setText()调用的语义。
如果需要XML在一个元素内被支持,必须添加适当的JDOM子元素对象。
JDOM同样可以处理CDATA部分。
一个CDATA部分需要的一个text文本不需要被分析。
它包括了简单一些HTML和XML内容,不含有以及空格。
建立一个CDATA部分,只要用CDATA对象包裹字符串:
element.addContent(newCDATA("content"));
混和内容的行为
一些元素包括了很多的内容,例如whitespace,comments,text,childelements,等等:
--Somecomment-->
Sometext
Somechildelement
当一个元素包括了文本和子元素,被称为混和内容。
处理混和内容本来是很困难的,但是通过JDOM变得简单。
标准的应用-找回文本内容和遍历元素-很简单:
Stringtext=table.getTextTrim(); //"Sometext"
Elementtr=table.getChild("tr"); //Astraightreference
对于大多数高级用户,都需要注释,空白,处理说明和实体参考,未处理的混和文本作为List是可行的:
ListmixedCo=table.getContent();
Iteratoritr=mixedCo.iterator();
while(itr.hasNext()){
Objecto=i.next();
if(oinstanceofComment){
...
}
//TypesincludeComment,Element,CDATA,DocType,
//ProcessingInstruction,EntityRef,andText
}
作为子元素列表,改变原始列表影响了后台文档:
//RemovetheComment。
It's"1"because"0"isawhitespaceblock.
mixedCo.remove
(1);
更多关于DocType,ProcessingInstruction,和EntityRefclasses的细节可以在jdom.org上的API文档中找到。
ORACLEXML工具
XMLDeveloperKit(XDK)是免费的XML工具库,它是有Oracle提供给开发人员的。
它包括了XML剖析器和一个XSLT翻译引擎,能和JDOM使用。
在OracleXML主页上,你可以找到更多的信息关于这些工具,
下载剖析器,寻找名为"XDKforJava."的XMLDeveloperKit。
在左边的专栏点击"Software"来找到下载连接。
一旦你打开分类,文件xalparserv2.jar就包括了剖析器。
使用剖析器的默认来配置JDOM和其它软件,你需要设置JAXPjavax.xml.parsers.SAXParserFactory系统为oracle.xml.jax.JXSAXParserFactory。
这将告诉JAXP选择了Oracle剖析器。
简单的方法是在命令行输入:
[CODE]java-Djavax.xml.parsers.SAXParserFactory=
oracle.xml.jaxp.JXSAXParserFactory
同样可以设定:
System.setProperty("jaxax.xml.parsers.SAXParserFactory","oracle.xml.jaxp.JXSAXParserFactory");
除了XDK之外,Oracle提供了原先的XMLOracle9iDatabaseRelease2仓库。
Oracle9iXMLDatabase(XDB)是应用很多,本身的XML存储。
它充分的吸收了W3CXML在Oracle9iDatabase中的数据模式并且为XML遍历和查询提供了新的标准接入方法。
关于XDB,得到了数据库相关的优点以及XML技术的优点。
用命名空间进行工作
JDOM为XML命名空间提供了丰富的,本地支持。
在命名空间发布之后JDOM才被发布。
在JDOM中,命名空间是通过Namespace类来描述的:
Namespacexhtml=Namespace.getNamespace(
"xhtml","http:
//www.w3.org/1999/xhtml";);
通过构造,一个对象被赋予了一个名字并且能随意的给一个命名空间:
elt.addContent(newElement("table",xhtml));
如果没有给出的命名空间,被构造的元素将没有命名空间。
一个元素的命名空间是它类型的本质的一部分,所以JDOM确保元素移动到文档的其它位置命名空间将不能被更改。
如果一个元素没有命名空间并且移动到一个有命名空间的元素之下,它不继承命名空间。
有时这将造成混淆,直到你学习了将textual描述从语义结构中分离