问题：

Java JSoup提取URL时出错

孙宏壮

2023-03-14

public class TestSl {
    public static void main(String[] args) throws IOException {
        Document doc = Jsoup.connect("https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data").get();
        Elements spans = doc.select("span[class=hidden-text]");
        for (Element span: spans) {
            System.out.println(span.text());
        }
    }
}

线程“main”org.jsoup.HttpStatusException中出现异常：提取URL时出现HTTP错误。status=403,url=java Htmlhtml" target="_blank">解析器提取特定数据？在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:590)在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:540)在org.jsoup.helper.httpconnection.execute(httpconnection.java:227)在org.jsoup.helper.httpconnection.execute(httpconnection.java:216)在testsl.main(testsl.java:19)

我做错了什么，我该如何解决？

共有1个答案

干善

2023-03-14

设置用户代理标头：

.userAgent("Mozilla")

示例：

Document document = Jsoup.connect("https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data").userAgent("Mozilla").get();
Elements elements = document.select("span.hidden-text");
for (Element element : elements) {
  System.out.println(element.text());
}

堆栈交换

类似资料：

Jsoup http获取url时出错

我只是下载了最新版本的j汤（1.7.1）并遵循官方代码（更改了url）。然后我得到了“超文本传输协议错误获取url” 我的代码有什么问题？似乎错误只是发生在Android项目，因为我在一个工作正常的Java项目做同样的事情。注意：-我已经添加了Internet权限
获取URL时出错。状态=400

JSoup似乎可以处理我尝试过的所有URL，但这一个给了我400个错误。我得到的错误是：
使用java读取URL时出现读取超时错误

我返回了一个代码，使用jsoup-1.7.3.jar读取网页，它对一些网站有效，但对一些URL显示读取超时错误。线程“main”java.net.SocketTimeoutException中的异常：java.net.SocketInputStream.socketRead0（本机方法）处java.net.SocketInputStream.Read（SocketInputStream.java
Moodle：提取下载的zip提交时出错

从课程页面，当我点击下载所有提交压缩文件下载。但是我无法提取压缩文件，因为它给出了以下错误。存档:cs_632-2013-2-project_final_submission-27762.zip未找到中央目录末端签名。要么这个文件不是zipfile，要么它构成了多部分归档的一个磁盘。在后一种情况下，中央目录和zipfile注释将在这个归档的最后一个磁盘上找到。解压缩：在cs_632-2013-2
JSOUP/HTTP获取URL时出错。状态=503

我使用JSOUB清理所有网页，如下所示：但我的问题是，代码一开始运行良好。过一会儿，它会停止，总是给我“HTTP错误获取URL。状态=503错误”。当我添加时。ignoreHttpErrors（true）它可以正常工作，但不会刮伤web。 *搜索词是我想要搜索的任何关键字，num是我需要检索的页数。有人能帮忙吗？这是否意味着谷歌阻止了我的IP刮取？如果是的话，请问有什么解决方案或者我如何替
Java-Jsoup HTTP获取URL时出错。状态=405

我正在尝试从这里连接并检索页面标题。如果我从链接中删除“.com”之后的所有内容，代码运行良好。以下代码不起作用：如果代码有效，返回的标题应该是“Sammamish Washington-Google News”。代码返回的错误是：“org.jsoup.HttpStatusException:HTTP错误获取URL。状态=405，URL=https://news.google.com/news/

Java JSoup提取URL时出错

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档