|
| |
名片设计 CorelDRAW Illustrator AuotoCAD Painter 其他软件 Photoshop Fireworks Flash |
|
最近要从网页中提取信息,想先把html转变成标准的xml格式,然后方便使用dom4j进行后续的分析,试用了不少现成的类库,JTidy、NekoHTML、HTML Parser、Jericho,最后还是使用了JTidy。 只是r8 snapshot还只是一个nightly builds,前面的r7版更已经是4年前的事了,这个项目就这样荒废了?可能是参与的人太少又或者是觉得已经成熟? JTidy提供了一个语法检查器和标签补偿器,能够对各种乱七八糟的html进行修复,使之符合xhtml标准。 r8 snapshot相对于r7改变了一些参数的设置方式,特殊是在字符编码处理上,用setInputEncoding和setOutputEncoding方式来确定输入和输出文件的字符编码,可以使用任何有效的Java编码名称,这就比以前的强多了。 总体上解析的结果还不错,只是有些地方还需要对生成文件进行手工调整,或者自己再编一段代码处理一下,已经不是大问题了。 一些常用的参数设置: setAltText(java.lang.String altText) 使用方式极为easy,定义输入输出流,用tidy.parse()转变就行了: BufferedInputStream in; FileOutputStream out; Tidy tidy = new Tidy(); tidy.setConfigurationFromFile(configFileName);//配置文件,写入上面的设置参数 try { in = new BufferedInputStream(new FileInputStream(srcFileName)); out = new FileOutputStream(outFileName); tidy.parse(in, out); } catch (IOException e) { System.out.println(e); } 返回类别: 教程 上一教程: XML在Web中的简朴应用 下一教程: 使用XML DOM生成XML(4) 您可以阅读与"用JTidy转变html为xml"相关的教程: · 如何在HTML中引用XML数据 · 使用xmldom在服务器端生成静态html页面 · XML 行为 - 新的DHTML? · HTML中的XML数据岛记录编辑与添加 · XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案 |
| 快精灵印艺坊 版权所有 |
首页 |
||