我想从放置在p
和li
标记中的HTML页面提取文本,因此我可以开始对该页面进行标记化,以便为每个页面构造倒排索引,以便回答搜索查询。
我如何p
使用jsoup 获取标签
Elements e = doc.select("");
要在该参数中写入的字符串是什么?
这可以做的工作
Elements e=doc.select("p");
这是您可以使用的所有选择器的列表。
假设您有这个html:
String html="<p>some <strong>bold</strong> text</p>";
要获得some bold text
结果,您应该使用:
Document doc = Jsoup.parse(html);
Element p= doc.select("p").first();
String text = doc.body().text(); //some bold text
要么
String text = p.text(); //some bold text
假设现在您具有以下复杂的html
String html="<div id=someid><p>some text</p><span>some other text</span><p> another p tag</p></div>"
要从两个p
标签中获取值,您必须执行以下操作
Document doc = Jsoup.parse(html);
Element content = doc.getElementById("someid");
Elements p= content.getElementsByTag("p");
String pConcatenated="";
for (Element x: p) {
pConcatenated+= x.text();
}
System.out.println(pConcatenated);//sometext another p tag
你可以找到更多的信息在这里也
希望这有所帮助
我有以下html: 我尝试获取div元素的子元素,然后迭代子元素并将其转换为html,但这只返回标记元素,而忽略元素之间的文本。在理想情况下,文本将被p标记包围,但情况并非如此:S 如果我在div元素上使用element.ownText函数,那么我会得到没有标记的文本,我需要这两样东西,并且顺序正确:/ 谢谢
我正在寻找一个正则表达式,它必须在不同类型的HTML标记之间提取文本。 对于前任: <代码> <代码> <代码> 我找到了这个特殊的片段
问题内容: 我有一个字符串: (它的输出超过两行,因此其中必须有一个\ n。 我希望提取标签之间的字符串。在这种情况下,它是7月28日,但是可能是另一个日期或其他某个数字。 1)从字体标签之间提取值的最佳方法是什么?我本以为可以提取和之间的所有内容。 编辑:第二个问题删除。 问题答案: 尽管可以使用正则表达式解析任意HTML,但这通常是一个死亡陷阱。有很多很棒的用于解析HTML的工具,包括Beau
问题内容: 如何从中提取字符串并使用模式匹配或其他方法。例如,如果文本是` “您好(Java)” 然后如何获得。 谢谢。 问题答案: 试试这个: 要么
问题内容: 我想使用PDFMiner从PDF文件中提取所有文本框和文本框坐标。 其他许多Stack Overflow帖子都介绍了如何以有序方式提取所有文本,但是我该如何做获取文本和文本位置的中间步骤呢? 给定一个PDF文件,输出应类似于: 问题答案: 换行符在最终输出中转换为下划线。这是我发现的最小工作解决方案。
我试图获取提供的html(跨度)之间的数据(在本例中为31) 以下是原始代码(来自chrome中的inspect elements) 我有一个包含页面源代码的富文本框,下面是相同的代码,但是在富文本框的第51行: 我将如何做到这一点?我已经尝试了几种方法,但似乎都不适合我。 我试图从这一页检索点值:http://www.subxcess.com/sub4sub.php根据谁潜艇你的数量变化。