当前位置: 首页 > 知识库问答 >
问题:

Jsoup wiki刮刀我如何获得目录框

皇甫雨华
2023-03-14

我在wiki上搜索目录时遇到了麻烦。我正在为一个个人项目做一个简单的网页刮刀,我不知道如何刮这些数据。

下面是我试图从任何给定的wiki页面中刮取目录的尝试

 String contentOver = doc.select("#toclimit-3 > li").first().text();

下面是我要刮的页面中的代码,我如何只得到单词“chronology”?:

    <ul> 
    <li class="toclevel-1 tocsection-1"><a href="#Chronology"><span class="tocnumber">1</span> <span class="toctext">Chronology</span></a></li>

共有1个答案

元昊苍
2023-03-14

您可以通过类名获得它:

 Element li = doc.select("#toclimit-3 > li").first();
 String result = li.select(".toctext").first().text();
 类似资料:
  • 我打算创建一个Android应用程序,它可以无头登录一个网站,然后在维护登录会话的同时从后续页面中删除一些内容。 我第一次在一个普通的Java项目中使用HtmlUnit,它工作得很好。但后来发现HtmlUnit与Android不兼容。 然后我通过向登录表单发送HTTP“POST”请求来尝试JSoup库。但由于JSoup不支持JavaScript,因此生成的页面无法完全加载。 然后有人建议我看看Se

  • 我对python有点陌生,但我正在尝试制作一个web scraper脚本,它可以在网站上下载所有图片。我正在使用requests和PyQuery,因为许多人在做了一些研究后推荐了它。这就是我现在所拥有的,我不知道该去哪里。 我知道我需要获取img的来源,但在找到img标签后如何做到这一点?此外,我查看了一些htmls的页面源,一些图片存储在他们的数据库中,因此src以“/”开头一些扩展“所以我想知

  • 嗨,我终于能够设置我的webscraper,并将数据导入到我的网页中:) 但是我的网页在端口3001上运行,而网页刮刀在端口8080上运行,我有点困惑,我怎么能设置一个计时器来更新后台的刮刀? Scraper.js 弗雷德里克

  • 我想自动从其他网站获取产品数据,或者通过抓取它,或者通过使用cURL访问API。由于我们的网站使用Wordpress,我正在尝试制作一个插件。我现在尝试在插件的设置页面上获取字段,以填写网站名称、cURL的链接格式以及应该导入的产品ID。插件的设置页面上会有一个按钮,当再次单击时,该按钮会添加相同的字段。我试图使用一个对象类,因为我想使用多个网站。我在我们的网站上收到HTTP错误500,所以我认为

  • 因此,我尝试使用jsoup来刮除图像的Reddit,但当我刮除某些子Reddit(如/r/wallpaper)时,我遇到了一个429错误,我想知道如何修复它。完全理解这段代码很糟糕,这是一个很普通的问题,但我对此完全陌生。无论如何:

  • 问题内容: 我需要从数据库获取最新记录。我正在使用sqlalchemy。此刻,我正在那样做: 但是查询太繁琐了。我怎样才能更好地获得最近的记录? 问题答案: 看一看。如果你在右列上指定排序,则第一个将是你的最后一个。一个示例可能如下所示: