我想使用jsoup从网页中提取内容。这些值在内部标签中,如何提取这些值?
例如
< div id="tfm_skyscraper" class="top_right_skyscraper"></div>
<nav class="main group">
<section class="verticals world group" data-beacon="{"p"">
<ul class="verticals-ul">
<li class="front-page toplevel" data-beacon="{"">
<a class="toplevel-a" href="http://www.huffingtonpost.com" title="Home" tabindex="1" sl-processed="1">FRONT PAGE</a>*
</li>
</ul>
</section>
</nav>
我想提取锚点标签中的内容首页*将如何做到这一点?
这将打印所有带有类 toplevel-a
的链接标记的文本
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
public static void main(String[] args) throws Exception {
String html = "<div id=\"tfm_skyscraper\" class=\"top_right_skyscraper\"></div>" +
"<nav class=\"main group\">" +
"<section class=\"verticals world group\" data-beacon=\"{"p"\">" +
"<ul class=\"verticals-ul\">" +
"<li class=\"front-page toplevel\" data-beacon=\"{"\">" +
"<a class=\"toplevel-a\" href=\"http://www.huffingtonpost.com\" title=\"Home\" tabindex=\"1\" sl-processed=\"1\">FRONT PAGE</a>*" +
"</li>" +
"</ul>" +
"</section>" +
"</nav>";
Document doc = Jsoup.parse(html);
Elements els = doc.select("a.toplevel-a");
for(Element el : els) {
System.out.println(el.text());
}
}
}
问题内容: 我有一个Div标签,如下所示 我如何获得eventTTL的值?我想显示eventTTL的值,即:)“ 4583476000”。 问题答案: 有关更多信息,请访问:https : //jsoup.org/cookbook/extracting-data/attributes-text- html
所以我尝试从pretag获取数据,我设置doc连接到url选择pretag,结果出错了,我需要获取的数据按这里
问题内容: 这是我的问题。我有一个html内容:innerText我需要提取“ innerText”。在Jsoup中尝试此操作时,我发现当由Jsoup解析时,内部文本超出了定位标记。 这是我的代码 输出: 为什么“ innerText”移到了定位标记之外? 问题答案: 您可以通过调用元素上的方法来访问文本。 顺便说一句 使用您发布的代码(和JSoup 1.8.1)产生以下输出
问题内容: 我正在Eclipse中运行一个Maven项目以进行Cucumber测试。我的测试运行器类如下所示: 不必将标签硬编码到测试运行器中,我渴望使用.command文件将它们传递给他们。(即使用System.getProperty(“ cucumber.tag”)) 但是,将代码行添加到上述测试运行器时出现错误: 我得到的错误是:“注释属性CucumberOptions.tags的值必须是一
我试图从这些div标签中获取文本,但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本,我试图: 和: 但是他们没有成功。
我去一个标签名