问题：

HTML提取正文中H2元素后的裸文本节点

古棋

2023-03-14

尝试提取html body元素中文本节点的值。它紧接着一个已知的h2标签，我可以用h2[text（）='A Heding']找到它。但是我不知道如何获取下面的文本节点，即下面示例中的文本“我想知道如何为该文本指定XPath表达式”。

我使用Java和JSoup，但是任何工具，最好是基于Java的

感谢您的帮助。

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="utf-8">
    <title>Finding Text following H2 tag</title>
  </head>
  <body>
    Some text.
    <h2>A Heading</h2>
    I would like to know how to specify an 
    XPath expression for this text.
    <h2>Another Heading</h2>
    Some more text.
  </body>
</html>

共有1个答案

赏彭薄

2023-03-14

你可以试试这个。

//h2/following-sibling::text()

输出：

节点：

文本值：

I would like to know how to specify an XPath expression for this text.
Some more text.

类似资料：

仅从此元素提取文本，而不从其子元素提取文本

问题内容：我只想从汤中最上面的元素中提取文本；但是汤.text也会给出所有子元素的文本：我有输出为。我只想“是”。实现此目标的最佳方法是什么？编辑：我也想在解析’ ‘时输出。问题答案：那又如何呢？编辑：我想我已经了解了你现在想要的。尝试这个：
如何获取元素的文本节点？

问题内容：我希望获得“我是文本节点”，不希望删除“ edit”标签，并且需要跨浏览器解决方案。问题答案：这将获取所选元素的，然后对其应用过滤功能。过滤器功能仅返回文本节点（即带有的节点）。
无法从Selenium Java的html元素中获取文本

我在Java中使用selenium。我无法从组合框的html元素中获取文本。每次我在combobox中得到所选值的空白文本时。下面是我的combobox的html结构。我在元素中使用了以下xpath 请帮忙。蒂亚。
从元素抽取属性，文本和HTML

问题在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。方法要取得一个属性的值，可以使用Node.attr(String key) 方法对于一个元素中的文本，可以使用Element.text()方法对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或Node.outerHtml()方法示例： String html =
Python元素树-从元素中提取文本，剥离标签

问题内容：使用Python中的ElementTree，如何从节点中提取所有文本，剥离该元素中的所有标签并仅保留文本？例如，说我有以下内容：我想回来。我该怎么做呢？到目前为止，我所采用的方法产生了相当灾难性的结果。问题答案：如果您在Python 3.2+下运行，则可以使用。创建一个文本迭代器，该迭代器按文档顺序循环遍历此元素和所有子元素，并返回所有内部文本：如果您在较低版本的Pytho
正则表达式从HTML提取文本

问题内容：我想从一般的HTML页面中提取所有文本（是否显示）。我想删除任何HTML标记任何JavaScript 任何CSS样式是否有一个正则表达式（一个或多个）可以实现？问题答案：您不能真正用正则表达式解析HTML。太复杂了。RE根本无法正确处理部分。此外，某些常见的HTML之类的东西将在浏览器中作为适当的文本工作，但可能会使天真的RE感到困惑。有了合适的HTML解析器，您会更快

HTML提取正文中H2元素后的裸文本节点

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档