问题：

使用jsoup（java）解析https

融烨磊

2023-03-14

    package test;

import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class crawler{
  private static final int TIMEOUT_IN_MS = 5000;

  public static void main(String[] args) throws MalformedURLException, IOException
  {
    Document doc = Jsoup.parse(new URL("http://www.internet.com/"), TIMEOUT_IN_MS);

    System.out.println(doc.html());
  }

}

    Document doc = Jsoup.parse(new URL("https://www.somesite.com/"), TIMEOUT_IN_MS);

System.out.println(doc.html());

共有1个答案

谢阳成

2023-03-14

Jsoup很好地支持https--它只是在背后使用Java的URLConnection。

403服务器响应表示服务器已“禁止”请求，通常是由于授权问题。如果您得到的是HTTP响应状态代码，那么TLS（https）协商已经成功。

这里的问题可能与HTTPS无关，只是您有困难获取的URL碰巧是HTTPS。您需要理解为什么服务器会给您一个403--我的猜测是，要么您需要发送一些授权令牌（cookie或URL参数），要么它因为用户代理（除非您指定，否则它默认为“java”）而阻止请求。很多服务都是这样阻止请求的。查看将useragent设置为公共浏览器字符串。使用jsoup.connect方法来完成此操作。

类似资料：

使用JSoup解析HTML

我想解析出这个Nasa页面上的描述，页面底部的文字我该怎么做？
Jsoup 使用DOM解析HTML

主要内容：Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document ：文档对象代表 HTML DOM。 Jsoup ：解析给定 HTML 字符串的主类。 html ： HTML 字符串。 sampleDiv ：元素对象表示由 id“sampleDiv”标识的 html
用jsoup解析JavaScript

问题内容：在页面中，我想选择一个变量的值。以下是页面的摘要。我的目的是使用来从此页面读取变量的值。有可能吗？如果是，那怎么办？问题答案：由于jsoup不是javascript库，因此有两种方法可以解决此问题： A.使用JavaScript库优点：全面的Javascript支持缺点：附加的天秤/依赖项 B.使用Jsoup +手动解析优点：无需额外的库足以完成简单的任务缺点：
使用Jsoup解析HTML内容

问题内容：这是我的HTML来源这是我获取内容的Java程序，它过滤HTML标记是否有使用Jsoup而不是使用Java而不是Regex解析HTML内容的简便方法有没有办法只获取所需的内容。所以在这里我只需要内容“项目2-222” 问题答案：尝试使用jsoup轻松解析：要了解更多信息，请访问Jsoup Docs
使用Jsoup解析表元素

我试图从这个表中解析数据。例如，假设我想解析第二行中的第二个元素（称为SLO）。我可以看到TR里面有一个TR，而SLO这个词甚至没有ID或任何东西。我如何解析这个？这是代码：我不知道在文档中放什么。选择（“”）；因为我从未解析过这样的东西。我只解析过网页标题之类的东西。有人能帮我吗？
使用 Jsoup 解析 dl 标记

我正在尝试解析

使用jsoup（java）解析https

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档