当前位置: 首页 > 知识库问答 >
问题:

如何解决HTTP错误获取URL。status=503 JSOUP(我尝试了所有解决方案)

田鸿彩
2023-03-14

在我的大数据项目中,我必须开发一个JSOUP脚本来获取巴黎2018年气象数据并存储它们

public static final String USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; 
Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 
Safari/537.36";

    int numberDay = 1;
    for(numberDay=1; numberDay<32 ; numberDay++ ) {
        //une condition sur le numberDay =1 puisque dans URL 1  = 1er
        if(numberDay==1){

            String First=numberDay+"er";
            String url = "https://www.infoclimat.fr/observations-meteo/archives/"+First+"/"+listMois.get(1)+"/2018/paris-montsouris/07156.html";
            System.out.println(url);
            //Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
            Document doc = Jsoup.connect(url).userAgent(USER_AGENT).get();

            //appel de la methode DataCollect
            dataCollect.GetData(doc);

        }


    else if(numberDay!=1) {

            String url = "https://www.infoclimat.fr/observations- 
meteo/archives/"+numberDay+"/"+listMois.get(1)+"/2018/paris- 
montsouris/07156.html";
            System.out.println(url);
            Document doc = 
Jsoup.connect(url).userAgent(USER_AGENT).get();

            dataCollect.GetData(doc);

        }
    else{
            System.out.println("erreur");
        }


}

我尝试了user\u Agent的所有解决方案,但都有相同的错误(URL在浏览器上工作)

 Exception in thread "main" org.jsoup.HttpStatusException: HTTP error 
 fetching URL. Status=503

错误显示在第8天,这样他可以在8次请求后检测到这是一个机器人。

共有1个答案

陈扬
2023-03-14

我通过添加一个线程来延长查询间隔时间,从而解决了这个问题

Thread.sleep(5000);
 类似资料:
  • 问题内容: 我尝试使用以下方法为32位Python安装Scrapy for Python 2.7.8(anaconda 2.1.0) 我得到这个错误 这是错误,在错误的上方和下方都有几行: 我同时拥有Microsoft Visual Studio 12.0和适用于Python 2.7的Microsoft Visual C ++编译器程序包,两者均具有vcvarsall.bat文件。 我有一个名为“

  • 我感觉被Python打败了,以至于我不确定还能尝试什么。我正在运行 Python 3.9,我只是无法在我的生命中让导入正常工作。这是我的目录结构: hello世界主.py 测试hello_world_main.py 当我运行< code > python test _ hello _ world _ main . py 时,我遇到了错误: 我已经完成了 我被打败了,不知道现在该怎么办。为什么会这样

  • 我尝试在JSP页面上显示一些数据库记录。在我的项目中,我必须使用index.html和studentdeatils.jsp这样的页面。我将requestDispather设置为从索引页转到studentDetails页。 当我试图显示JSP时,我的浏览器页面中出现了以下错误。 请分享你的想法。

  • 我正在android studio中创建一个简单的应用程序,用于使用Volley库管理通过wifi连接的设备。当我运行应用程序时,我得到以下错误。 java.lang.RuntimeException:错误URL 192.168.137.139:8081/Zeroconf/switch在com.android.volle.toolbox.basicnetwork.performRequest(ba

  • 我知道这个问题以前被问过很多次,但我确实试过了所有的方法,但我仍然犯了这个错误。 我试图通过索引中的ajax获取json数据。php文件。我正在ubuntu服务器上通过apache2运行我的网站。我不知道从这里到哪里去。 精确误差: 我尝试的:-将此添加到/etc/apache2/apache2。conf文件 -将其添加到每个<代码> -将此添加到我的index.php文件: -将“json”更改