当前位置: 首页 > 知识库问答 >
问题:

组织。jsoup。HttpStatusException:获取URL时发生HTTP错误。Status=504尝试刮取HTML内容时出错

昝卓
2023-03-14

我想从下面列出的URL中删除HTML代码。问题是,我得到了这个错误:-

2016年8月14日下午6:40:36。主要严重错误:空组织。jsoup。HttpStatusException:获取URL时发生HTTP错误。状态=504,URL=http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001

我已将超时设置为无穷大,但这没有帮助。该网站的HTML代码非常大,即14833行代码。这就是问题的原因吗?

String url = "http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971&sectionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse";

Document doc = Jsoup.connect(url)
                .maxBodySize(0)
                .timeout(0)
                .get();

System.out.println(doc);

共有2个答案

蓬弘
2023-03-14

通过将UserAgent设置为Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,比如Gecko)Chrome/51.0.2704.106 Safari/537.36,我成功地连接到了该网站。但是,大约用了4分钟的时间才做出回应。

徐新荣
2023-03-14

这不是JSoupAPI或您的代码问题。出现错误消息的原因是URL没有响应并抛出“网关超时”错误消息(代理服务器没有收到来自上游服务器的及时响应)。

来自程序的异常消息:-

HTTP错误获取URL。状态=504

HTTP状态代码: 504

504网关超时

服务器在充当网关或代理时,没有从URI(例如HTTP、FTP、LDAP)指定的上游服务器或它在尝试完成请求时需要访问的某些其他辅助服务器(例如DNS)收到及时响应。

  Note: Note to implementors: some deployed proxies are known to
  return 400 or 500 when DNS lookups time out.
 类似资料:
  • 我只是下载了最新版本的j汤(1.7.1)并遵循官方代码(更改了url)。然后我得到了“超文本传输协议错误获取url” 我的代码有什么问题?似乎错误只是发生在Android项目,因为我在一个工作正常的Java项目做同样的事情。 注意:-我已经添加了Internet权限

  • 我使用JSOUB清理所有网页,如下所示: 但我的问题是,代码一开始运行良好。 过一会儿,它会停止,总是给我“HTTP错误获取URL。状态=503错误”。 当我添加时。ignoreHttpErrors(true)它可以正常工作,但不会刮伤web。 *搜索词是我想要搜索的任何关键字,num是我需要检索的页数。 有人能帮忙吗?这是否意味着谷歌阻止了我的IP刮取?如果是的话,请问有什么解决方案或者我如何替

  • 我正在尝试从这里连接并检索页面标题。如果我从链接中删除“.com”之后的所有内容,代码运行良好。以下代码不起作用: 如果代码有效,返回的标题应该是“Sammamish Washington-Google News”。代码返回的错误是:“org.jsoup.HttpStatusException:HTTP错误获取URL。状态=405,URL=https://news.google.com/news/

  • 我想连接到https://www.notebooksbilliger.de/但对于以下代码,它不起作用: 为什么我得到405状态?我如何解决这个问题? 非常感谢... 塞巴斯蒂安

  • 在我的大数据项目中,我必须开发一个JSOUP脚本来获取巴黎2018年气象数据并存储它们 我尝试了user\u Agent的所有解决方案,但都有相同的错误(URL在浏览器上工作) 错误显示在第8天,这样他可以在8次请求后检测到这是一个机器人。

  • 线程“main”org.jsoup.HttpStatusException中出现异常:提取URL时出现HTTP错误。status=403,url=java Html解析器提取特定数据?在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:590)在org.jsoup.helper.httpconnection$r