我试图从URL列表中下载.html中的网页,但其中一些网站使用会话cookie,当我尝试Jsoup.connect(“URL”)时,我得到了403。
因此,我使用了Map/HashMap作为如何使用Jsoup管理cookies、维护cookies、使用Jsoup进行会话、检索cookies..,但仍然是403。
真正让我吃惊的是,一个像Mac Automator这样简单的应用程序可以完成这项工作,实际上只保存文本而不是html" target="_blank">html,但仍然...
有谁知道如何克服cookies的挫折吗?一个使用这个页面的例子会很棒。http://pubs.acs.org/doi/full/10.1021/ja312087x
THX!!!
看看这个答案https://stackoverflow.com/a/15369631/516167
您需要打开页面,并在此之后发送表单数据(登录名、密码)、cookies和其他所需参数与POST。
我在Spring Security中启用remember-me选项时出现了一个奇怪的错误。当会话过期时,我可以导航我的其余网页,但注销和其他POST方法在服务器中产生错误。它们不起作用,因为我的控制器重用了GET方法而不是post方法。我不明白为什么。 首先,我有一个Apache httpd服务作为代理使用ProxyPass配置。我将我的.war部署为root.war,因为我想访问我的域名www.
问题内容: 我有一个合作伙伴,已经为我创造了一些内容供您抓取。 我可以使用浏览器访问该页面,但是当尝试使用user时,会显示。 我尝试使用,但这无济于事-可能是因为我不知道该去哪里。 1)我有什么办法可以刮取数据? 2)如果否,并且不允许合作伙伴将服务器配置为允许我访问,该怎么办? 我尝试使用的代码: 问题答案: 这不是您脚本中的问题,而是合作伙伴Web服务器安全性中的一项功能。 很难确切地说出是
问题内容: 我正在尝试制作Sitecraper。我是在本地计算机上制作的,在那儿工作得很好。当我在服务器上执行相同操作时,它显示403禁止错误。我正在使用PHP简单HTML DOM解析器 。我在服务器上收到的错误是这样的: 警告:file_get_contents(http://example.com/viewProperty.html?id=7715888)[function.file- get
问题内容: 我制作了供个人使用的python脚本,但不适用于Wikipedia … 这项工作: 这不起作用: 这是错误: 问题答案: 在当前代码内: Python 2.X 的Python 3.X 带有Selenium的Python 3.X(执行Javascript函数) 修改后的版本起作用的原因是因为Wikipedia检查User-Agent是“流行的浏览器”
当我试图构建一个Spring启动项目时,我得到了一个特定存储库的403个禁止错误。这将导致构建失败。 附属国: 错误: 我检查了Maven存储库,它被称为里程碑存储库。不知道该怎么办,请帮我解决这个问题。
我无法理解从phonegap发送ajax请求时,如果没有使用tomcat处理请求,则返回403错误。如果使用码头嵌入工作冷却。 我的控制器 如何在tomcat中完整记录请求,或者如何从spring修复它。在简单的rest中,客户机工作很酷。 获取返回 主机10.0.0.42:8080连接保持活动接受/x请求-使用com。柠檬酸。planReview用户代理Mozilla/5.0(Linux;U;A