用JTidy转变html为xml-会员卡,广州印刷,深圳印刷,印刷公司,名片,彩页,名片设计,设计教程,名片制作,彩色名片,名片模板,贵宾卡,pvc卡,设计欣赏,深圳名片,广州名片,business card design

首页	名片设计 CorelDRAW Illustrator AuotoCAD Painter 其他软件 Photoshop Fireworks Flash

» 彩色名片
» PVC卡
» 彩色磁性卡
» 彩页/画册
» 个性印务
» 彩色不干胶
» 明信片
   » 明信片
   » 彩色书签
   » 门挂
» 其他产品与服务
   » 创业锦囊
   » 办公用品
   » 信封、信纸
   » 便签纸、斜面纸砖
   » 无碳复印纸
   » 海报
   » 大篇幅印刷
   » KT板
   » 海报
   » 横幅

用JTidy转变html为xml

　　最近要从网页中提取信息，想先把html转变成标准的xml格式，然后方便使用dom4j进行后续的分析，试用了不少现成的类库，JTidy、NekoHTML、HTML Parser、Jericho，最后还是使用了JTidy。

　　只是r8 snapshot还只是一个nightly builds，前面的r7版更已经是4年前的事了，这个项目就这样荒废了？可能是参与的人太少又或者是觉得已经成熟？

　　JTidy提供了一个语法检查器和标签补偿器，能够对各种乱七八糟的html进行修复，使之符合xhtml标准。

　　r8 snapshot相对于r7改变了一些参数的设置方式，特殊是在字符编码处理上，用setInputEncoding和setOutputEncoding方式来确定输入和输出文件的字符编码，可以使用任何有效的Java编码名称，这就比以前的强多了。

　　总体上解析的结果还不错，只是有些地方还需要对生成文件进行手工调整，或者自己再编一段代码处理一下，已经不是大问题了。

　　一些常用的参数设置：

setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行<br />之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties props)
从properties中读取配置信息
setErrfile(java.lang.String errfile)
错误输出文件
setFixBackslash(boolean fixBackslash)
URL中用/取代
setForceOutput(boolean forceOutput)
不管生成的xml是否有错，强制输出。
setHideComments(boolean hideComments)
结果中不生成注释
setInputEncoding(java.lang.String encoding)
输入编码
setLogicalEmphasis(boolean logicalEmphasis)
用em替代i，strong替代b
setMessageListener(TidyMessageListener listener)
加入一个TidyMessageListener监听器
setOnlyErrors(boolean onlyErrors)
只输出错误文件
setOutputEncoding(java.lang.String encoding)
输出编码
setPrintBodyOnly(boolean bodyOnly)
只输出body中的部分
setRepeatedAttributes(int repeatedAttributes)
重复属性的处理
setSpaces(int spaces)
每行前的空格数，就是缩进格式
setTidyMark(boolean tidyMark)
是否生成tidy标记
setTrimEmptyElements(boolean trimEmpty)
不输出空元素
setUpperCaseAttrs(boolean upperCaseAttrs)
属性变大写
setUpperCaseTags(boolean upperCaseTags)
标记变大写
setWraplen(int wraplen)
多长换行
setXHTML(boolean xhtml)
输出xhtml
setXmlOut(boolean xmlOut)
输出xml
setXmlPi(boolean xmlPi)
文件头输出xml标记
setXmlSpace(boolean xmlSpace)
加入xml名字空间属性

使用方式极为easy，定义输入输出流，用tidy.parse()转变就行了：

BufferedInputStream in;

FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setConfigurationFromFile(configFileName);//配置文件，写入上面的设置参数

try {

in = new BufferedInputStream(new FileInputStream(srcFileName));

out = new FileOutputStream(outFileName);

tidy.parse(in, out);

} catch (IOException e) {

System.out.println(e);

}

返回类别: 教程
上一教程: XML在Web中的简朴应用
下一教程: 使用XML DOM生成XML(4)

您可以阅读与"用JTidy转变html为xml"相关的教程:
· 如何在HTML中引用XML数据
· 使用xmldom在服务器端生成静态html页面
· XML 行为 - 新的DHTML?
· HTML中的XML数据岛记录编辑与添加
· XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案


	快精灵印艺坊版权所有	首页会员中心在线印刷在线编辑付款方式索取样品设计指南连锁门店网站地图关于我们友情链接