当前位置: 首页 > 知识库问答 >
问题:

使用DataDome的网站在使用Selenium和Python进行刮取时captcha被阻止

赫连明诚
2023-03-14

我实际上正在尝试从不同的网站中删除一些汽车数据,我一直在chromebrowser中使用selenium,但一些网站实际上通过验证码验证(例如:https://www.leboncoin.fr/),阻止了selenium,而这只需要一到两个请求。我尝试在chromebrowser中更改$_cdc,但这没有解决问题,我一直在chromebrowser中使用这些选项

user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
options = webdriver.ChromeOptions()
options.add_argument(f'user-agent={user_agent}')
options.add_argument('start-maximized')
options.add_argument('disable-infobars')
options.add_argument('--profile-directory=Default')
options.add_argument("--incognito")
options.add_argument("--disable-plugins-discovery")
options.add_experimental_option("excludeSwitches", ["ignore-certificate-errors", "safebrowsing-disable-download-protection", "safebrowsing-disable-auto-update", "disable-client-side-phishing-detection"])
options.add_argument('--disable-extensions')
browser = webdriver.Chrome(chrome_options=options)

browser.delete_all_cookies()

browser.set_window_size(800,800)

browser.set_window_position(0,0)

我试图刮的网站使用DataDome为机器人安全,有线索吗?

共有1个答案

皇甫飞光
2023-03-14

它的发生可能是由于各种各样的原因。试着通过这里给出的答案,你可以防止这个问题。

有时对我有效的一个简单解决方案是在selenium中使用waits/sleep调用,请参阅有关waits的文档。或者睡眠呼叫可以这样做

Import time
time.sleep(2)
 类似资料:
  • 我正试图从以下URL中刮取球员姓名和位置:https://theDraftNetwork.com/articles/2021-NFL-draft-big-board-marino

  • 最近我一直在用Python和靓汤学习网页刮刮乐。然而,当我试图刮下下面的页面时,我遇到了一点麻烦: http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签,但我找不到任何方法来获取数据,尽管我花了很多时间在网上拖网。 我试着在网上看了几本指南,但似乎没有一本奏效。我尝试将页面转换为XML和JSON,但仍然找不到数据。 我现在有点手足无

  • 新编码器来了。一段时间以来,我一直试图在一个非常基于java的网站上删除一段文本,现在使用Selenium。我不知道这一点我做错了什么。 试图刮取的元素的图像: 我试图在这个容器中刮取那个美元金额,这样我最终就可以在我正在构建的每日报告中使用它。 以下是网站链接:https://explorer.helium.com/accounts/13pm9jur7wpjaf7evwgq5eqaartppu2

  • 但是我不想做一个循环,而是想触发一个事件,比如,如果用户手动按下load more Post按钮,新页面被加载,我得到页面的页面源。有什么办法可以做到吗?如有任何帮助,不胜感激。

  • 我正试图从这一页上删除所有5000家公司。当我向下滚动时,它的动态页面和公司被加载。但我只能刮去5家公司的钱,那我怎么能刮去全部5000家呢?当我向下滚动页面时,URL正在更改。我试过硒,但没用。https://www.inc.com/profile/onetrust注意:我想刮公司的所有信息,但刚才选择了两个。 更新了代码,但页面根本不滚动。更正了BeautifulSoup代码中的一些错误 谢谢