我有一个像这样的元素:
<td> TextA <br/> TextB </td>
如何分别提取TextA和TextB?
几种方法。这实际上取决于文档本身以及给定的HTML标记是否一致。在此特定示例中,您可以获取td
的子节点Element#childNodes()
,然后分别测试每个节点是否为TextNode
。
例如
Element td = getItSomehow();
for (Node child : td.childNodes()) {
if (child instanceof TextNode) {
System.out.println(((TextNode) child).text());
}
}
导致
文字A
文字B
我认为,如果Jsoup提供了Element#textNodes()
或东西来获取子文本节点,就像Element#children()
获取子元素一样(<br />
在您的示例中将返回该元素),那会很好。
问题内容: 我想使用JSoup将一些文本提交到此表单中。我将如何去做呢? 问题答案: 看一下jsoup.connect方法和Connection接口。 准备好要提交的文本后,可以将其作为表单提交发布到URL。 例如: 返回的对象将是帖子的结果页面。
我需要从如下节点中提取文本: 我需要建立: 仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。 文本节点-某些文本
问题内容: 我有一个html: 我想按顺序获取所有文本,例如以下数组: 问题答案: 我将使用一种递归方法,该方法采用您的开始标记并对其子节点进行迭代。对于每个TextNode,打印内容。对于每个元素,检查它的子节点。 输出量
我一直在研究用于数据提取的Jsoup示例,并提取了此链接的一个示例 J汤
问题内容: 我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本(例如,http://en.wikipedia.org/wiki/Boston中的所有文本)? 问题答案: 当然,您可以通过这种方式检索格式化的内容。如果您想要“原始”内容,则可以使用或使用call 过滤结果。
提取css 成单独文件需要用到mini-css-extract-plugin插件 一、提取 css 的核心配置 // webpack.config.js webpack的配置文件 // 路径: ./webpack.config.js ………… // 引入插件 const MiniCssExtractPlugin = require('mini-css-extract-plugin'); modu