当前位置：首页 > 面试题库 >

如何提取之间的文本标签

梁烨烨

2023-03-14

问题内容：

我想从放置在p和li标记中的HTML页面提取文本，因此我可以开始对该页面进行标记化，以便为每个页面构造倒排索引，以便回答搜索查询。

我如何p使用jsoup 获取标签

Elements e = doc.select("");

要在该参数中写入的字符串是什么？

问题答案：

这可以做的工作

Elements e=doc.select("p");

这是您可以使用的所有选择器的列表。

假设您有这个html：

String html="<p>some <strong>bold</strong> text</p>";

要获得some bold text结果，您应该使用：

Document doc = Jsoup.parse(html);
Element p= doc.select("p").first();
String text = doc.body().text(); //some bold text

要么

String text = p.text(); //some bold text

假设现在您具有以下复杂的html

String html="<div id=someid><p>some text</p><span>some other text</span><p> another p tag</p></div>"

要从两个p标签中获取值，您必须执行以下操作

Document doc = Jsoup.parse(html);
Element content = doc.getElementById("someid");
Elements p= content.getElementsByTag("p");

String pConcatenated="";
for (Element x: p) {
  pConcatenated+= x.text();
}

System.out.println(pConcatenated);//sometext another p tag

你可以找到更多的信息在这里也

希望这有所帮助

类似资料：

如何使用JSoup将标签和标签之间的文本提取到列表中

我有以下html：我尝试获取div元素的子元素，然后迭代子元素并将其转换为html，但这只返回标记元素，而忽略元素之间的文本。在理想情况下，文本将被p标记包围，但情况并非如此：S 如果我在div元素上使用element.ownText函数，那么我会得到没有标记的文本，我需要这两样东西，并且顺序正确：/ 谢谢
正则表达式提取HTML标记之间的文本

我正在寻找一个正则表达式，它必须在不同类型的HTML标记之间提取文本。对于前任： <代码> <代码> <代码> 我找到了这个特殊的片段
Python字符串操作，在html标签之间提取文本

问题内容：我有一个字符串：（它的输出超过两行，因此其中必须有一个\ n。我希望提取标签之间的字符串。在这种情况下，它是7月28日，但是可能是另一个日期或其他某个数字。 1）从字体标签之间提取值的最佳方法是什么？我本以为可以提取和之间的所有内容。编辑：第二个问题删除。问题答案：尽管可以使用正则表达式解析任意HTML，但这通常是一个死亡陷阱。有很多很棒的用于解析HTML的工具，包括Beau
在括号之间提取文本的模式

问题内容：如何从中提取字符串并使用模式匹配或其他方法。例如，如果文本是` “您好（Java）” 然后如何获得。谢谢。问题答案：试试这个：要么
如何从PDF文件提取文本和文本坐标？

问题内容：我想使用PDFMiner从PDF文件中提取所有文本框和文本框坐标。其他许多Stack Overflow帖子都介绍了如何以有序方式提取所有文本，但是我该如何做获取文本和文本位置的中间步骤呢？给定一个PDF文件，输出应类似于：问题答案：换行符在最终输出中转换为下划线。这是我发现的最小工作解决方案。
获取两个html标记之间的文本

我试图获取提供的html（跨度）之间的数据（在本例中为31）以下是原始代码(来自chrome中的inspect elements) 我有一个包含页面源代码的富文本框，下面是相同的代码，但是在富文本框的第51行: 我将如何做到这一点？我已经尝试了几种方法，但似乎都不适合我。我试图从这一页检索点值：http://www.subxcess.com/sub4sub.php根据谁潜艇你的数量变化。

相关阅读

在MySQL中的子字符串之间提取文本如何获取Tkinter标签文本？如何使用BeautifulSoup在两个指定标签之间获取所有文本？如何在大型文本文件中的两个唯一单词之间提取信息 Jsoup：如何获取2个标题标签之间的所有html

相关文章

Linux提取RPM包 Tableau提取数据 PDFBox提取图像不同进制之间的转换 PyTorch Convents特征提取

相关问答

如何从文本节点中提取文本，隔离表中的标签？提取html标记之间的字符串在python中的指定html块之间提取文本获取括号之间的文本 iText：如何调整文本提取？

相关工具

应用之间调用 iOS设备之间相互AirPlay 自动文字提示列表 Marlin 中文版本 LCD JOE文本编辑器

相关文档

KAG 标签文档 v1.0 Go 语言标准库中文文档 Python 文本处理 IPC 进程间通信中文文档 C 标准库中文版