当前位置: 首页 > 面试题库 >

如何使用Jsoup提取单独的文本节点?

强阳曜
2023-03-14
问题内容

我有一个像这样的元素:

<td> TextA <br/> TextB </td>

如何分别提取TextA和TextB?


问题答案:

几种方法。这实际上取决于文档本身以及给定的HTML标记是否一致。在此特定示例中,您可以获取td的子节点Element#childNodes(),然后分别测试每个节点是否为TextNode

例如

Element td = getItSomehow();

for (Node child : td.childNodes()) {
    if (child instanceof TextNode) {
        System.out.println(((TextNode) child).text());
    }
}

导致

 文字A 
 文字B

我认为,如果Jsoup提供了Element#textNodes()或东西来获取子文本节点,就像Element#children()获取子元素一样(<br />在您的示例中将返回该元素),那会很好。



 类似资料:
  • 问题内容: 我想使用JSoup将一些文本提交到此表单中。我将如何去做呢? 问题答案: 看一下jsoup.connect方法和Connection接口。 准备好要提交的文本后,可以将其作为表单提交发布到URL。 例如: 返回的对象将是帖子的结果页面。

  • 我需要从如下节点中提取文本: 我需要建立: 仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。 文本节点-某些文本

  • 问题内容: 我有一个html: 我想按顺序获取所有文本,例如以下数组: 问题答案: 我将使用一种递归方法,该方法采用您的开始标记并对其子节点进行迭代。对于每个TextNode,打印内容。对于每个元素,检查它的子节点。 输出量

  • 我一直在研究用于数据提取的Jsoup示例,并提取了此链接的一个示例 J汤

  • 问题内容: 我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本(例如,http://en.wikipedia.org/wiki/Boston中的所有文本)? 问题答案: 当然,您可以通过这种方式检索格式化的内容。如果您想要“原始”内容,则可以使用或使用call 过滤结果。

  • 提取css 成单独文件需要用到mini-css-extract-plugin插件 一、提取 css 的核心配置 // webpack.config.js webpack的配置文件 // 路径: ./webpack.config.js ………… // 引入插件 const MiniCssExtractPlugin = require('mini-css-extract-plugin'); modu