当前位置: 首页 > 知识库问答 >
问题:

使用登录要求刮取StreetEasy页面

汤念
2023-03-14

我目前正在研究房地产数据,想从StreetEasy中提取一些数据,这是一个注册表,看看它在大约2个月前的收盘价低于挂牌价格。

示例url http://streeteasy.com/sale/1220187

我需要的数据需要登录,但登录机制是非常不同的。没有登录页面,登录是弹出式的。有没有我可以使用Python来获得身份验证并在登录后访问页面,就像下面的图片一样?

共有1个答案

阎兴为
2023-03-14

使用Selenium和PhantomJS,当涉及到刮取数据时,您将得到一个强大的组合。

from selenium import webdriver

host = "http://streeteasy.com/sale/1220187"

driver = webdriver.PhantomJS()

# Set the "window" wide enough so PhantomJS can "see" the right panel
driver.set_window_size(1280, 800)
driver.get(host)

driver.find_element_by_link_text("Register to see what it closed for").click()

driver.save_screenshot("output.jpg")

您看到的是Selenium如何让您进入网页登录的一个小片段(通过JPG screencap验证)。从那里开始,就需要切换登录框,提供凭据,然后click()进入。

哦,还要注意TOS。祝你好运!

 类似资料:
  • 我想用selenium登录这个网页。我尝试了selenium的find_element_by_,并使用浏览器中的检查元素。但是我无法登录。我在搜索id、名称、类名,这样我就可以用send_keys传递数据,但是没有做到这些。有人能帮助我提供一些代码来将数据推送到所需的字段吗?谢谢。这就是我到目前为止所做的。 在此之后,我试图点击按钮登录使用 但它失败了。它给出了无法找到“登录”的错误。由于默认情况

  • 我正试图使用从我订阅的新闻网站上刮取文章。 我在电脑上的每个浏览器上都登录了网站(这不重要吗?),但每当我试图从特定文章中获取任何文本时,请使用以下命令: 页面=请求。得到(”http://www.SomeWebsite.com/blah/blah/blah.html") tree=html。fromstring(page.text) 文章=tree.xpath('//div/p/text()')

  • 客户端SPA应用程序,我要使用的登录页面驻留于此 OAuth身份验证服务器(使用Spring Security OAuth/) 一个或多个OAuth资源服务器 我寻求的OAuth流如下所示: 用户尝试访问SPA中的安全路由 客户端将用户重定向到OAuth服务器的授权页(参数包括状态、随机数等) OAuth服务器未检测到令牌并重定向到SPA的登录页 用户登录;post到登录url(登录url位于OA

  • 问题内容: 我在爬网一个想要爬网的坚定网站时遇到了麻烦。问题是:成功登录该网站后,我无法访问需要有效登录的链接。 例如: 我在这里做的是: 从登录页面获取cookie,以便我可以正确登录; 然后,我发布到登录验证URL,该URL在登录后返回主页。 最终,我尝试在登录主页后尝试访问需要登录的URL,但是该请求使我返回登录页面,就好像会话已过期。 我知道我必须存储cookie才能使会话保持活动状态,但

  • 我已经设计了我自己的登录和注册页面,我想使用。如何使用它们而不是default。是否有任何API我可以调用或可能是我的后端会这样做?我还读到有用于keycloak的spring适配器,我可以使用它们吗?任何链接到任何例子都是好的。 我的第二个问题是,在注册时,我可以在中添加更多的用户详细信息,如地址、dob、性别吗?因为我的注册页面需要这些信息。

  • 而且,再一次,即使键入正确的凭据,正如我在“userDetailsService”方法中指定的那样,我也无法登录,但这次我终于可以在控制台上看到错误消息: 显然我走了,但没有离开这个地方,因为现在我不知道我的代码有什么问题...