我有下面的代码行来获取一个html文档使用jSoup
Document doc = Jsoup.connect("http://nomads.ncep.noaa.gov/pub/data/nccf/com/hrrr/prod/hrrr.20180904/conus/")
.userAgent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Host", "nomads.ncep.noaa.gov")
.timeout(10*1000)
.get();
无论我使用什么标题,这都会超时。相同的网址:
http://nomads.ncep.noaa.gov/pub/data/nccf/com/hrrr/prod/hrrr.20180904/conus/
当我在Chrome或火狐上打卡时,工作完全正常。我错过了什么?提前感谢所有的帮助。
问题是,这个网站非常慢,平均需要30秒才能加载(你可以通过在浏览器中加载来查看)。所以你需要把超时时间设定在50秒左右。
这会解决你的问题。。。
Document doc = Jsoup.connect("http://nomads.ncep.noaa.gov/pub/data/nccf/com/hrrr/prod/hrrr.20180904/conus/")
.userAgent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Host", "nomads.ncep.noaa.gov")
.timeout(50000)
.get();
我有一个带有ID、TEXT等列的表,这里的TEXT是超文本标记语言FORMAT中包含数据的Clob列 样本数据: 当我使用Jsoup.parse(AUDIT_SCOPE_LOB.text()时;我得到的数据如下 我对java知之甚少。我可以使用jsoup获取java代码来提取数据并重新运行下面的outpu吗 实际上,这个数据是一个样本数据。我有一些带有html标记的数据,这里没有提到。
线程“main”org.jsoup.HttpStatusException中出现异常:提取URL时出现HTTP错误。status=403,url=java Html解析器提取特定数据?在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:590)在org.jsoup.helper.httpconnection$r
我正在尝试使用JSoup解析通过Servlet生成的HTML文件。据我所知,我需要申报一份文件。当我运行代码时 Document doc=Jsoup。解析(URL,10000); 它总是超时,如果我增加超时时间,它将一直运行,直到达到该时间。当我输入,它只是永远运行。我在谷歌Chrome的macbook pro上工作。 我的问题是: 这只是我的电脑还是我做错了什么? 有没有一种方法可以解决这个问题
我需要从如下节点中提取文本: 我需要建立: 仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。 文本节点-某些文本
问题内容: 我想使用JSoup-framework提取此表,以将内容保存在“表”数组中。第一个tr-tag是表头。所有以下内容(不包括在内)均描述了内容。 我已经测试了这一个和其他一些,但是我没有让它们为我工作: 使用JSoup提取HTML表内容 问题答案: 这是一些示例代码,您如何仅选择标题: 你得到… 解析 文件 :(这里是和字符集,请参阅jsoup对铁道部的相关信息文件) 解析 网站 :(不
当我试图从在线URL=forexalgerie.com中的表中获取数据时,我的目标是这些值: ...似乎我的代码一切正常: 但是结果包含表中的所有内容,除了我想要的值? 怎么了?