我正试图从以下URL中刮取球员姓名和位置:https://theDraftNetwork.com/articles/2021-NFL-draft-big-board-marino
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('https://thedraftnetwork.com/articles/2021-nfl-draft-big-board-marino')
p_element = driver.find_element_by_xpath('//*[@class="player-name-event name gold-fade"]')
p_element.text
请尝试下面的代码片段:
driver.get('https://thedraftnetwork.com/articles/2021-nfl-draft-big-board-marino')
wait = WebDriverWait(driver, 60)
players = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, 'h4.player-name-event.name.gold-fade')))
positions = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, 'div.editorial')))
for player, position in zip(players, positions):
print(player.text +" " +position.text)
以下导入:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
问题内容: 我正尝试在此网站上搜索selenium表中的清单。我是新手,并编写了以下代码: 但是,我可以获取以下标签,但不能获取其中的数据。 我以前也尝试过BS4进行刮擦,但失败了。任何帮助深表感谢。 问题答案: 该 结果是在一个iframe -切换到它,然后得到: 我还要添加一个等待表加载的方法:
新编码器来了。一段时间以来,我一直试图在一个非常基于java的网站上删除一段文本,现在使用Selenium。我不知道这一点我做错了什么。 试图刮取的元素的图像: 我试图在这个容器中刮取那个美元金额,这样我最终就可以在我正在构建的每日报告中使用它。 以下是网站链接:https://explorer.helium.com/accounts/13pm9jur7wpjaf7evwgq5eqaartppu2
我的问题是关于从特定网站上收集数据的可能性。目前,我的算法正在将HTML转换为文本,然后检查文件中包含的标记词,并求和标记的数量。 我的问题在于在刮网站的同时无法向下“滚动”。正如你所看到的,它正在检查一个twitter帐户上的标志数,但它仅限于50sh最新的tweets。我希望我说清楚了。 附注:我给了twitter一个例子,我不是在为twitter寻找特定的东西,而是更健壮的东西。 我将非常感
我实际上正在尝试从不同的网站中删除一些汽车数据,我一直在chromebrowser中使用selenium,但一些网站实际上通过验证码验证(例如:https://www.leboncoin.fr/),阻止了selenium,而这只需要一到两个请求。我尝试在chromebrowser中更改$_cdc,但这没有解决问题,我一直在chromebrowser中使用这些选项 我试图刮的网站使用DataDome
问题内容: 我已经写了很多刮板,但是我不确定如何处理无限滚动条。如今,大多数网站,Facebook,Pinterest等都有无限滚动条。 问题答案: 您可以使用硒来刮除Twitter或Facebook之类的无限滚动网站。 步骤1:使用pip安装Selenium 第2步:使用下面的代码自动执行无限滚动并提取源代码 步骤3:根据需要打印数据。
我正试图使用从我订阅的新闻网站上刮取文章。 我在电脑上的每个浏览器上都登录了网站(这不重要吗?),但每当我试图从特定文章中获取任何文本时,请使用以下命令: 页面=请求。得到(”http://www.SomeWebsite.com/blah/blah/blah.html") tree=html。fromstring(page.text) 文章=tree.xpath('//div/p/text()')