China Open source community
站内导航:

 
 
 
当前位置: 首页 >> 程序设计 >> Java >> Java开源HTML操作组件
 

Java开源HTML操作组件

作者:      来源:zz     发表时间:2006-09-22     浏览次数:      字号:    

 NekoHTML   点击次数:2603

NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。

 JTidy   点击次数:1916

JTidy 是 HTML Tidy用Java实现的移植版本,提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品,JTidy可以用来清除格式不好和不对的HTM。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

 HotSAX   点击次数:1025

HotSAX是一个快速,小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

 Jericho HTML Parser   点击次数:1480

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。

 HTML Parser   点击次数:3045

HTML Parser实现即时HTML语法分析程序。

 Java HTML Parser   点击次数:1896

HTML Parser提供了一组Tag对象,这些对象可以深入解析一棵可搜索的结构树。

 TagSoup   点击次数:715

TagSoup是一个Java开发符合SAX的HTML解析器.

 HtmlRipper   点击次数:1963

HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.

 Cobra   点击次数:372

Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。 

编辑 webmaster

 
 
 
评论
 
 
发表
 
姓名: QQ:
性别: MSN:
E-mail: 主页:
评分: 1 2 3 4 5
评论内容:
验证码:
  
  • 请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
  • 严禁发表危害国家安全、损害国家利益、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容的评论 。
  • 用户需对自己在使用本站服务过程中的行为承担法律责任(直接或间接导致的)。
  • 本站管理员有权保留或删除评论内容。
  • 评论内容只代表网友个人观点,与本网站立场无关。
  •  
    中国源码网 - WWW.YUANMA.ORG - 中国开放源代码社区