当前位置: 首页 > 知识库问答 >
问题:

此程序仅对该url无效。。。对于其他URL,它正在工作[重复]

竺承望
2023-03-14

我想从datatable中获取数据,datatable在前面提到的url中可用。

这不适用于此url,仅适用于其他url。它工作正常。

这是网页抓取的代码,但问题是该url不起作用。

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class GetData {
   public static void main(String[] args) throws InterruptedException {

      String html = "http://programs.dsireusa.org/system/program";
      try {
         Document doc = Jsoup.connect(html).get();
         Elements tableElements = doc.select("table");

         Elements tableHeaderEles = tableElements.select("thead tr th");
         System.out.println("headers");
         Thread.sleep(5000);
         System.out.println(tableHeaderEles.size());

         for (int i = 0; i < tableHeaderEles.size(); i++) {
            System.out.println(tableHeaderEles.get(i).text());
         }
         System.out.println();

         Elements tableRowElements = tableElements.select(":not(thead) tr");

         for (int i = 0; i < tableRowElements.size(); i++) {
            Element row = tableRowElements.get(i);
            System.out.println("row");
            Elements rowItems = row.select("td");
            for (int j = 0; j < rowItems.size(); j++) {
               System.out.println(rowItems.get(j).text());
            }
            System.out.println();
         }

      } catch (IOException e) {
         e.printStackTrace();
      }
   }
}

我希望输出的所有数据可在这个网址的可数据这个程序是工作正常的其他网址。

http://programs.dsireusa.org/system/program

共有1个答案

柯冯浩
2023-03-14

问题是url在页面加载后加载其元素(通过javascript)。如果您可能要等待大约2秒钟才能刮取,则应加载页面

编辑:您将需要使用除beautifulSoup之外的其他内容,因为bs jsut在页面加载时读取所有内容。您可以使用selenium制作一个真正的浏览器来读取数据

 类似资料:
  • 问题内容: 我有带有代码的简单应用程序: 自定义URLStreamHandler: 安装者: 它加载data / index.html: 但结果图像没有出现。 如何允许WebView解析相对链接,例如“ download.jpg”? 问题答案: 我瘦了,我找到了解决方法: 在我们必须添加 代替 并标出网址, 用

  • 这是我的链接 url正在重写,但页面未运行。。。这是一个错误 未找到 请求的URL/domin。在此服务器上找不到com/new。 此外,尝试使用ErrorDocument处理请求时遇到404 Not Found错误。 域中的Apache服务器。com端口80

  • 我是相当新的PHP,我做了一些研究,并尝试了别人的解决方案,但它不适合我。我想在执行特定代码后将用户重定向到另一个页面。我意识到没有错误信息,网站不会改变。所以我从代码中删除了几乎所有的内容,并将其放入一个小test.php文件中。同样的问题依然存在。 期望:页面应该立即执行php脚本,并将我重定向到“www.w3schools.com”。应该没有错误或其他消息。 结果:页面显示并加载html代码

  • 问题内容: 在ajax中使用base_url()从codeigniter项目中获取数据库。给定的base_url就像http://domainname.com。很好 如果我可以在地址栏中输入http://www.domainname.com之类的网址,则无法正常工作。该代码是 请帮助解决此问题。谢谢 问题答案: 我认为最好的解决方案是: 只需在HTML的标头部分中添加以下脚本即可。 然后在您的Aj

  • 问题内容: 在CSS文件中定义诸如背景图片URL之类的内容时,使用相对URL时,它相对于何处?例如: 假设文件包含: 如果我包括通过这个样式表到不同的文件会在CSS文件中的相对URL是 相对于样式表文件 中或 相对于当前文档 包括它是什么?可能的路径如下: 问题答案: 根据W3: 部分URL相对于样式表的来源而不是相对于文档进行解释 因此,在回答您的问题时,它将相对于。 如果考虑到这一点,这是有道

  • 内建的 URL 类提供了用于创建和解析 URL 的便捷接口。 没有任何一个网络方法一定需要使用 URL 对象,字符串就足够了。所以从技术上讲,我们并不是必须使用 URL。但是有些时候 URL 对象真的很有用。 创建 URL 对象 创建一个新 URL 对象的语法: new URL(url, [base]) url —— 完整的 URL,或者仅路径(如果设置了 base), base —— 可选的 b