当前位置：首页 > 面试题库 >

使用Java将HTML文件读取到DOM树

屠君墨

2023-03-14

问题内容：

是否有解析器/库可以使用Java将HTML文档读取到DOM树中？我想使用DOM/XpathJava提供的标准API。

大多数库似乎都具有自定义API来解决此任务。此外，大多数可用的解析器似乎都不支持将HTML转换为XML-DOM。

有一个好的HTML DOM解析器有什么想法或经验吗？

问题答案：

JTidy，方法是将流处理为XHTML，然后使用您喜欢的DOM实现重新解析，或者如果可以提供足够的DOM限制就使用parseDOM。

或者Neko。

类似资料：

使用stax和dom读取大XML文件

问题内容：我需要阅读几个大（200Mb-500Mb）XML文件，所以我想使用StaX。我的系统有两个模块- 一个用于读取文件（使用StaX）；另一个用于读取文件。另一个模块（“解析器”模块）假定获取该XML的单个条目并使用DOM对其进行解析。我的XML文件没有特定的结构-因此我无法使用JaxB。如何向“解析器”模块传递要解析的特定条目？例如：我想使用StaX来解析该文件-但是每个“项目”条目都
如何使用Java将文件从Zip文件读取到内存中？

问题内容：我从SUN网站（http://java.sun.com/developer/technicalArticles/Programming/compression/）找到了示例，但是它返回BufferedOutputStream。但是我想将ZipEntry文件作为InputStream，然后处理下一个文件。那可能吗？我的程序无法访问硬盘，因此它甚至无法临时保存文件。问题答案：好吧，只需
Jsoup 读取文件获取HTML

主要内容：Jsoup 读取文件获取HTML 语法,Jsoup 读取文件获取HTML 说明,Jsoup 读取文件获取HTML 示例以下示例将展示使用文件从磁盘获取 HTML，然后查找其数据。 Jsoup 读取文件获取HTML 语法 document ：文档对象代表 HTML DOM。 Jsoup ：连接 url 并获取 HTML 字符串的主类。 url ：要加载的 html 页面的 url。 Jsoup 读取文件获取HTML 说明 connect(url) 方法建立到 url 的连接，get
使用Java读取Unicode文本文件

问题内容：真正简单的问题。我需要在Java程序中读取Unicode文本文件。我习惯于使用带有BufferedReader FileReader组合的纯ASCII文本，这显然不起作用:( 我知道我可以使用“缓冲读取器”以“传统”方式读取字符串，然后使用类似以下方式的字符串进行转换：但是，有没有办法将阅读器包装在“转换器”中？编辑：文件以FF FE开头问题答案：您不会包装Reader，而是
“ java.net.MalformedURLException：找不到协议”读取到html文件

问题内容：我提出了一个错误：我想在网上阅读HTML文件问题答案：您的URI不是URI。没有协议组件。它需要http：//或您打算使用的其他协议。
使用Java读取远程文件

问题内容：我正在寻找一种简单的方法来获取位于远程服务器上的文件。为此，我在Windows XP上创建了本地ftp服务器，现在我想为测试Applet提供以下地址：当然，我会收到以下错误： URI方案不是“文件” 我一直在尝试其他方法来获取文件，但它们似乎没有用。我该怎么办？（我也很想执行HTTP请求）问题答案：您不能使用ftp开箱即用。如果文件位于http上，则可以执行以下操作：如果要使

使用Java将HTML文件读取到DOM树

相关阅读

相关文章

相关问答

相关工具

相关文档