问题内容: 如何通过jsoup登录? 我试过了,但是不起作用: 问题答案: 通常,登录网站需要两个步骤- 您发送请求以获取页面,然后从中提取一些值,例如会话ID等以及cookie。 您发送带有第1步中的值以及您的用户名和密码的请求。 要知道您需要发送哪些值,请在开发人员模式下使用浏览器(按F12键)并检查流量。更改字符串以匹配您的浏览器,因为某些站点将不同的页面发送到不同的客户端。
问题内容: 这是我的问题。我有一个html内容:innerText我需要提取“ innerText”。在Jsoup中尝试此操作时,我发现当由Jsoup解析时,内部文本超出了定位标记。 这是我的代码 输出: 为什么“ innerText”移到了定位标记之外? 问题答案: 您可以通过调用元素上的方法来访问文本。 顺便说一句 使用您发布的代码(和JSoup 1.8.1)产生以下输出
问题内容: 我正在尝试使用JSoup从Google抓取搜索结果。目前这是我的代码。 我只是想获取搜索结果的标题以及标题下方的摘录。是的,我只是不知道要搜寻这些元素要查找哪些元素。如果有人有更好的方法使用Java抓取Google,我想知道。 谢谢。 问题答案: 干得好。 另外,要自己完成此操作,我建议您使用chrome。您只需右键单击要刮取的任何内容,然后检查元素。它将带您到该元素位于html的确切
问题内容: 我正在将Jsoup与轻松的白名单一起使用。看起来很完美,但我想保留嵌入的图像标签,例如。 有没有办法修改白名单以接受这些img? 编辑 : 如果使用,则不会删除那些img标签。但是它接受“ data:”之后的任何内容,如果src内容以“ data:; base64”开头,我只想保留它们。jsoup是否可能? 问题答案: 您可以扩展白名单并覆盖isSafeAttribute以执行自定义检
下面是我需要的内容的元素: 我需要用Java获取这些信息。最好使用JSOUP。元素是JavaScript帮助下的字段: Java代码:
线程“main”org.jsoup.HttpStatusException中出现异常:提取URL时出现HTTP错误。status=403,url=java Html解析器提取特定数据?在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:590)在org.jsoup.helper.httpconnection$r
我正在尝试使用JSOUP解析一个网页并提取数据。但该链接是动态的,在显示详细信息之前会弹出一个等待加载页面。因此Jsoup似乎处理等待页面而不是详细信息页面。有没有让它等到页面完全加载?
我有下面的代码,可以使用JSoup抓取网站,但我想同时抓取多个URL。我将URL存储在一个数组中,但无法使其工作。如果我想使用它,如何在多线程中实现这段代码?多线程对这样的应用程序有好处吗?
我正在尝试使用以下代码获取Google结果: 但是我得到了这个例外: 403错误意味着服务器禁止访问,但我可以很好地在Web浏览器中加载此URL。为什么J汤会出现403错误?
我看过其他类似的帖子,但没有明显的跳出。如果我错过了,我相信有人会给我指出正确的方向! 问题是我的应用程序中的此代码曾经有效,但不再有效。所以我假设网站发生了变化。我在同一个应用程序中为其他三个网站使用完全相同的代码,它们运行良好。LOGCAT显示以下错误: org.jsoup.HttpStatusException:获取URL时出现HTTP错误。status=403, URL=http://no
可能是一个不清楚的问题,下面是代码和说明: 字符串exampleThmlData包含来自特定站点的已解析HTML源。这个网站有很多链接可以将用户直接链接到谷歌。例如: 我想提取所有包含谷歌的链接。com/example/位于与文档的链接中。选择函数。如何使用JSoup实现这一点?
我将html表格从网页复制到excel,并尝试使用下面的代码,但没有结果。请就如何解决这个问题提出建议。我做了所有的实验,但没有得到正确的结果。
我试图解析我的大学网站,以获得一个新闻列表(标题+链接)从主要网站。然而,当我试图解析一个完整的网站时,我要查找的链接被嵌套在其他类、表等的深处。下面是我试图使用的代码: 但不管用。如果每一个链接都放在以下位置,那么是否有更好的方法获得所有这些链接的href值和标题: 也许是某种循环,它会迭代所有这些标记,并从中获取值? 感谢帮助:-)
我使用jsoup解析一些页面的链接,然后使用httpclient测试链接,看看它们是否工作。我网页上的一些链接是,我想忽略这些。