问题：

使用DataDome的网站在使用Selenium和Python进行刮取时captcha被阻止

赫连明诚

2023-03-14

我实际上正在尝试从不同的网站中删除一些汽车数据，我一直在chromebrowser中使用selenium，但一些网站实际上通过验证码验证（例如:https://www.leboncoin.fr/)，阻止了selenium，而这只需要一到两个请求。我尝试在chromebrowser中更改$_cdc，但这没有解决问题，我一直在chromebrowser中使用这些选项

user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
options = webdriver.ChromeOptions()
options.add_argument(f'user-agent={user_agent}')
options.add_argument('start-maximized')
options.add_argument('disable-infobars')
options.add_argument('--profile-directory=Default')
options.add_argument("--incognito")
options.add_argument("--disable-plugins-discovery")
options.add_experimental_option("excludeSwitches", ["ignore-certificate-errors", "safebrowsing-disable-download-protection", "safebrowsing-disable-auto-update", "disable-client-side-phishing-detection"])
options.add_argument('--disable-extensions')
browser = webdriver.Chrome(chrome_options=options)

browser.delete_all_cookies()

browser.set_window_size(800,800)

browser.set_window_position(0,0)

我试图刮的网站使用DataDome为机器人安全，有线索吗？

共有1个答案

皇甫飞光

2023-03-14

它的发生可能是由于各种各样的原因。试着通过这里给出的答案，你可以防止这个问题。

有时对我有效的一个简单解决方案是在selenium中使用waits/sleep调用，请参阅有关waits的文档。或者睡眠呼叫可以这样做

Import time
time.sleep(2)

类似资料：

用Selenium刮网站时的NoSuchElementException

我正试图从以下URL中刮取球员姓名和位置:https://theDraftNetwork.com/articles/2021-NFL-draft-big-board-marino
用Python进行网页刮取

最近我一直在用Python和靓汤学习网页刮刮乐。然而，当我试图刮下下面的页面时，我遇到了一点麻烦： http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在网上拖网。我试着在网上看了几本指南，但似乎没有一本奏效。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在有点手足无
被使用selenium和chromedriver的网站屏蔽
使用Selenium刮java-重网站-返回None

新编码器来了。一段时间以来，我一直试图在一个非常基于java的网站上删除一段文本，现在使用Selenium。我不知道这一点我做错了什么。试图刮取的元素的图像：我试图在这个容器中刮取那个美元金额，这样我最终就可以在我正在构建的每日报告中使用它。以下是网站链接:https://explorer.helium.com/accounts/13pm9jur7wpjaf7evwgq5eqaartppu2
如何使用python和selenium使用load more按钮刮无限滚动的网站

但是我不想做一个循环，而是想触发一个事件，比如，如果用户手动按下load more Post按钮，新页面被加载，我得到页面的页面源。有什么办法可以做到吗？如有任何帮助，不胜感激。
在python中使用selenium刮取动态网页失败

我正试图从这一页上删除所有5000家公司。当我向下滚动时，它的动态页面和公司被加载。但我只能刮去5家公司的钱，那我怎么能刮去全部5000家呢？当我向下滚动页面时，URL正在更改。我试过硒，但没用。https://www.inc.com/profile/onetrust注意：我想刮公司的所有信息，但刚才选择了两个。更新了代码，但页面根本不滚动。更正了BeautifulSoup代码中的一些错误谢谢

使用DataDome的网站在使用Selenium和Python进行刮取时captcha被阻止

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档