当前位置: 首页 > 知识库问答 >
问题:

使用jsoup从Div标记的内部标记获取属性值

水焱
2023-03-14

我想使用jsoup从网页中提取内容。这些值在内部标签中,如何提取这些值?

例如

< div id="tfm_skyscraper" class="top_right_skyscraper"></div>
  <nav class="main group">
   <section class="verticals world group" data-beacon="{&quot;p&quot">
    <ul class="verticals-ul">
        <li class="front-page toplevel" data-beacon="{&quot">
        <a class="toplevel-a" href="http://www.huffingtonpost.com" title="Home"  tabindex="1" sl-processed="1">FRONT PAGE</a>*

        </li>                           
    </ul>
 </section>
</nav>

我想提取锚点标签中的内容首页*将如何做到这一点?

共有1个答案

郭修平
2023-03-14

这将打印所有带有类 toplevel-a 的链接标记的文本

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {

    public static void main(String[] args) throws Exception {
        String html =   "<div id=\"tfm_skyscraper\" class=\"top_right_skyscraper\"></div>" +
                            "<nav class=\"main group\">" +
                                "<section class=\"verticals world group\" data-beacon=\"{&quot;p&quot\">" +
                                    "<ul class=\"verticals-ul\">" +
                                        "<li class=\"front-page toplevel\" data-beacon=\"{&quot\">" +
                                            "<a class=\"toplevel-a\" href=\"http://www.huffingtonpost.com\" title=\"Home\" tabindex=\"1\" sl-processed=\"1\">FRONT PAGE</a>*" +
                                        "</li>" +                           
                                    "</ul>" +
                                "</section>" +
                            "</nav>";

        Document doc = Jsoup.parse(html);
        Elements els = doc.select("a.toplevel-a");
        for(Element el : els) {
            System.out.println(el.text());
        }
    }
}
 类似资料:
  • 问题内容: 我有一个Div标签,如下所示 我如何获得eventTTL的值?我想显示eventTTL的值,即:)“ 4583476000”。 问题答案: 有关更多信息,请访问:https : //jsoup.org/cookbook/extracting-data/attributes-text- html

  • 所以我尝试从pretag获取数据,我设置doc连接到url选择pretag,结果出错了,我需要获取的数据按这里

  • 问题内容: 这是我的问题。我有一个html内容:innerText我需要提取“ innerText”。在Jsoup中尝试此操作时,我发现当由Jsoup解析时,内部文本超出了定位标记。 这是我的代码 输出: 为什么“ innerText”移到了定位标记之外? 问题答案: 您可以通过调用元素上的方法来访问文本。 顺便说一句 使用您发布的代码(和JSoup 1.8.1)产生以下输出

  • 我试图从这些div标签中获取文本,但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本,我试图: 和: 但是他们没有成功。

  • 问题内容: 我正在Eclipse中运行一个Maven项目以进行Cucumber测试。我的测试运行器类如下所示: 不必将标签硬编码到测试运行器中,我渴望使用.command文件将它们传递给他们。(即使用System.getProperty(“ cucumber.tag”)) 但是,将代码行添加到上述测试运行器时出现错误: 我得到的错误是:“注释属性CucumberOptions.tags的值必须是一