我正在使用带有“lxml”和“requests”的python脚本来抓取网页。我的目标是从页面中获取一个元素并下载它,但是内容在HTTPS页面上,我在尝试访问页面中的内容时遇到错误。我确信我必须包含某种证书或身份验证,但我正在努力寻找正确的资源。我正在使用:
page = requests.get("https://[example-page.com]", auth=('[username]','[password]'))
错误是:
requests.exceptions.SSLError: [Errno 185090050] _ssl.c:340: error:0B084002:x509 certificate routines:X509_load_cert_crl_file:system lib
向GET请求添加验证=False
可解决此问题。
page = requests.get("https://[example-page.com]", auth=('[username]','[password]'), verify=False)
问题内容: 我正在使用Scrapy从该页面抓取数据 https://www.bricoetloisirs.ch/magasins/gardena 产品列表会动态显示。查找网址以获取产品 https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&uiarea=2&carea=%24
我正在抓取一个aspx呈现的网页链接到页面 网站是. aspx,我选择了Selenium,机械化,urllib,lxml,美丽的汤,请求。也用了scrapy。 我使用了以下请求: 它给 也试过用机械化,刮擦。他们都只是给出这个结果。如何刮那些网站。但是我可以在浏览器中看到源代码。有没有办法收集那些数据。
我知道如何通过selenium浏览结果页面,但我不知道如何浏览结果页面。我也尝试过mechanize,但这并没有让我走得更远。这就是我现在的处境: 最终的想法是将当事人、案件编号和提交日期作为字符串存储在一个数据库中。csv。当我现在打印输出时,我得到: 感谢任何帮助。
最近,我一直试图从一个网站上获取大量的定价,从一个页面开始,每个项目的页面都链接到起始页面。我希望运行一个脚本,允许我单击某个项目的框,删除该项目的定价和描述,然后返回起始页并继续该循环。然而,有一个明显的问题,我在刮掉第一件物品后遇到了。返回起始页后,容器没有定义,因此出现了一个陈旧的元素错误,该错误会中断循环并阻止我获取其余的项。这是我使用的示例代码,希望能够一个接一个地刮去所有项目。 然而,
我删除了一些数据,在这个数据框中得到了结果: 我只想在此HTML页面中显示:(病例、死亡、康复、危急): 最后的结果应该是这样的与我的刮削代码(它将显示没有CSS) 我是HTML的初学者:(我没有使用像flask或Django之类的web框架
我是nodejs/expressjs新手。有人能解释一下如何通过https服务网页吗? 我得换个方式问这个问题,stackoverflow在抱怨我的帖子主要是代码? 以下是错误转储: 类型错误:对象 # 在对象处没有方法“get”。(/home/john/startup/docm/w2.js:21:5) at Module._compile (module.js:456:26) at Object