问题：

Jsoup wiki刮刀我如何获得目录框

皇甫雨华

2023-03-14

我在wiki上搜索目录时遇到了麻烦。我正在为一个个人项目做一个简单的网页刮刀，我不知道如何刮这些数据。

下面是我试图从任何给定的wiki页面中刮取目录的尝试

 String contentOver = doc.select("#toclimit-3 > li").first().text();

下面是我要刮的页面中的代码，我如何只得到单词“chronology”？：

    <ul> 
    <li class="toclevel-1 tocsection-1"><a href="#Chronology"><span class="tocnumber">1</span> <span class="toctext">Chronology</span></a></li>

共有1个答案

元昊苍

2023-03-14

您可以通过类名获得它：

 Element li = doc.select("#toclimit-3 > li").first();
 String result = li.select(".toctext").first().text();

类似资料：

Selendroid作为web刮刀

我打算创建一个Android应用程序，它可以无头登录一个网站，然后在维护登录会话的同时从后续页面中删除一些内容。我第一次在一个普通的Java项目中使用HtmlUnit，它工作得很好。但后来发现HtmlUnit与Android不兼容。然后我通过向登录表单发送HTTP“POST”请求来尝试JSoup库。但由于JSoup不支持JavaScript，因此生成的页面无法完全加载。然后有人建议我看看Se
Web刮刀的PyQuery代码

我对python有点陌生，但我正在尝试制作一个web scraper脚本，它可以在网站上下载所有图片。我正在使用requests和PyQuery，因为许多人在做了一些研究后推荐了它。这就是我现在所拥有的，我不知道该去哪里。我知道我需要获取img的来源，但在找到img标签后如何做到这一点？此外，我查看了一些htmls的页面源，一些图片存储在他们的数据库中，因此src以“/”开头一些扩展“所以我想知
更新卷筒纸刮刀

嗨，我终于能够设置我的webscraper，并将数据导入到我的网页中：）但是我的网页在端口3001上运行，而网页刮刀在端口8080上运行，我有点困惑，我怎么能设置一个计时器来更新后台的刮刀？ Scraper.js 弗雷德里克
Wordpress产品数据刮刀/API

我想自动从其他网站获取产品数据，或者通过抓取它，或者通过使用cURL访问API。由于我们的网站使用Wordpress，我正在尝试制作一个插件。我现在尝试在插件的设置页面上获取字段，以填写网站名称、cURL的链接格式以及应该导入的产品ID。插件的设置页面上会有一个按钮，当再次单击时，该按钮会添加相同的字段。我试图使用一个对象类，因为我想使用多个网站。我在我们的网站上收到HTTP错误500，所以我认为
J汤reddit刮刀429错误

因此，我尝试使用jsoup来刮除图像的Reddit，但当我刮除某些子Reddit（如/r/wallpaper）时，我遇到了一个429错误，我想知道如何修复它。完全理解这段代码很糟糕，这是一个很普通的问题，但我对此完全陌生。无论如何：
如何获得最新记录

问题内容：我需要从数据库获取最新记录。我正在使用sqlalchemy。此刻，我正在那样做：但是查询太繁琐了。我怎样才能更好地获得最近的记录？问题答案：看一看。如果你在右列上指定排序，则第一个将是你的最后一个。一个示例可能如下所示：

Jsoup wiki刮刀我如何获得目录框

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档