当前位置: 首页 > 面试题库 >

Java哪种HTML解析器是最好的?

苗冯浩
2023-03-14
问题内容

编写了很多解析器。到目前为止,我一直使用HtmlUnit无头浏览器进行解析和浏览器自动化。

现在,我想将两个任务分开。

由于我80%的工作仅涉及解析,因此我想使用简单的HTML解析器,因为在HtmlUnit中花很多时间才能首先加载页面,然后获取源然后解析它。

我想知道哪个HTML解析器是最好的。如果解析器与HtmlUnit解析器接近,则解析器会更好。

编辑:

最好的情况是,我至少需要以下功能:

1.速度
2.易于通过其“ id”或“ name”或“ tag type”定位任何HtmlElement。

如果不清除脏HTML代码,对我来说可以。我不需要清理任何HTML源。我只需要一种最简单的方法即可在HtmlElements之间移动并从中获取数据。


问题答案:

自我插件:我刚刚发布了一个新的Java HTML解析器:jsoup。我在这里提到它是因为我认为它将做您所追求的。

它的聚会技巧是使用CSS选择器语法来查找元素,例如:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

有关更多信息,请参见Selector javadoc。

这是一个新项目,因此任何改进的想法都非常欢迎!



 类似资料:
  • 问题内容: 我编写了很多解析器。到目前为止,我一直使用HtmlUnit无头浏览器进行解析和浏览器自动化。 现在,我想将两个任务分开。 由于我80%的工作仅涉及解析,因此我想使用简单的HTML解析器,因为在HtmlUnit中花很多时间才能首先加载页面,然后获取源然后解析它。 我想知道哪个HTML解析器是最好的。如果解析器与HtmlUnit解析器接近,则解析器会更好。 编辑: 最好的情况是,我至少需要

  • 问题内容: 我编写了很多解析器。到目前为止,我一直使用HtmlUnit无头浏览器进行解析和浏览器自动化。 现在,我想将两个任务分开。 由于我80%的工作仅涉及解析,因此我想使用简单的HTML解析器,因为在HtmlUnit中花费大量时间先加载页面,然后获取源然后解析它。 我想知道哪个HTML解析器是最好的。如果解析器与HtmlUnit解析器接近,则解析器会更好。 编辑: 最好的情况是,我至少需要以下

  • 问题内容: 到目前为止,我一直在使用Cobra,因为它很容易,但是不幸的是,它在一些测试用例中存在一些问题。有人建议使用经过测试的库吗? 我尝试了Cobra内置的HTMLCleaner并没有运气。 问题答案: Mozilla HTML Parser 看起来很有趣。根据定义,它应该和Gecko引擎本身一样好,这很可能满足您的需

  • 问题内容: 我需要做得好的gui swing java datechooser ..我只从199x中找到一些难看的datepicker 有人知道一个不错的gui datepicker吗? 问题答案: 的SwingLabs有SwingX项目,它提供了一套组件,包括 JXDatePicker (API)与工作时间类,它 支持从日00:00:00 1970年1月1日,GMT开始 。 试试demo,作为一

  • 问题内容: 想知道社区对各种可用的和免费的Java Profiler和性能分析工具有何看法。 问题答案: JProfiler对我们来说效果很好。 http://www.ej- technologies.com/products/jprofiler/overview.html

  • 问题内容: 按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 要在Linux平台上编写用于流程自动化的脚本,哪种脚本语言会更好?Shell脚本,Perl或Python还是其他?我是所有人的新手。所以,我只是在考虑去哪一个?