问题：

JavaScript__DoPostback的web刮擦在td中包含herf

壤驷瑾瑜

2023-03-14

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

chromeOptions = webdriver.ChromeOptions()
chromeOptions.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(executable_path='C:/Users/ptiwar34/Documents/chromedriver.exe', chrome_options=chromeOptions, desired_capabilities=chromeOptions.to_capabilities())
driver.get('https://www.unspsc.org/search-code/default.aspx?CSS=51%&Type=desc&SS%27=')
WebDriverWait(driver, 20).until(EC.staleness_of(driver.find_element_by_xpath("//td/a[text()='2']")))
driver.find_element_by_xpath("//td/a[text()='2']").click()

numLinks = len(WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.XPATH, "//td/a[text()='2']"))))
print(numLinks)
for i in range(numLinks):
    print("Perform your scraping here on page {}".format(str(i+1)))
    WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "//td/a[text()='2']/span//following::span[1]"))).click()
driver.quit()

    <td><span>1</span></td>
    <td><a 
     href="javascript:__doPostBack 
(&#39;dnn$ctr1535$UNSPSCSearch$gvDetailsSearchView&#39;,&#39;Page$2&#39;)" 
style="color:#333333;">2</a>
     </td>

这将引发错误：

raise TimeoutException(message, screen, stacktrace)
TimeoutException

共有1个答案

林夕

2023-03-14

若要刮取网站https://www.unspsc.org/search-code/default.aspx？css=51%&type=desc&ss%27=，使用Selenium可以使用以下定位器策略：

代码块：

  from selenium import webdriver
  from selenium.webdriver.support.ui import WebDriverWait
  from selenium.webdriver.common.by import By
  from selenium.webdriver.support import expected_conditions as EC

  chrome_options = webdriver.ChromeOptions() 
  chrome_options.add_argument("start-maximized")
  driver = webdriver.Chrome(options=chrome_options, executable_path=r'C:\WebDrivers\chromedriver.exe')
  driver.get("https://www.unspsc.org/search-code/default.aspx?CSS=51%&Type=desc&SS%27=%27")
  while True:
      try:
          WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "//table[contains(@id, 'UNSPSCSearch_gvDetailsSearchView')]//tr[last()]//table//span//following::a[1]"))).click()
          print("Clicked for next page")
      except TimeoutException:
          print("No more pages")
          break
  driver.quit()

控制台输出：

  Clicked for next page
  Clicked for next page
  Clicked for next page
  .
  .
  .

类似资料：

使用HTMLUnit实现Java的Web刮擦

我正在尝试web Scrap https://www.nba.com/standings#/
刮擦问题（动态含量）（无硒）

我需要刮http://www.vintagetoday.be/fr/montres但它有动态内容。我该怎么做呢？从bs4导入请求导入美丽汤t=requests.get（"vintagetoday.be/fr/catalogue.awp"）. text print（len（美丽汤（t，"lxml"）. findAll（"td"，{"class"："Lien2"}））
Node.JS刮擦编码？

问题内容：我取这个页面与该请求库中的Node.js，并使用解析身体cheerio。调用已解析的响应正文，发现该页面的title属性为： …什么时候应该：我尝试将请求库的选项设置为include ，但这似乎并没有改变任何东西。如何保留这些字符？问题答案：该页面似乎是用iso-8859-1编码的。您需要通过传递并使用诸如node- iconv之类的东西来告诉您退回未编码的缓冲区。如果要
按计划刮擦

问题内容：按计划运行Scrapy使我绕过Twist（ed）。我以为下面的测试代码可以工作，但是第二次触发蜘蛛时出现错误：我猜想，作为CrawlerProcess的一部分，Twisted Reactor会在不需要时再次启动，从而导致程序崩溃。有什么办法可以控制吗？同样在这个阶段，如果有一种自动执行Scrapy Spider的替代方法可以按计划运行，我也很高兴。我试过了，但还是不能让它循环：
使用刮擦飞溅会严重影响刮擦速度吗？

问题内容：到目前为止，我一直只使用scrapy并编写自定义类来使用ajax处理网站。但是，如果我要使用scrapy-splash，据我所知，它会在javascript之后刮擦呈现的html，那么对我的抓取工具的速度会产生重大影响吗？用scrapy刮擦香草html页面与使用scrapy-splash渲染javascript html所花费的时间之间的比较是什么？最后，scrapy-splas
刮除包含：：的网页之前

我的问题是当使用bs4刮超文本标记语言不能刮包含像。我想知道该公司在一个页面中为哪些可持续发展目标做出了贡献。https://www.unglobalcompact.org/participation/report/cop/create-and-submit/active/395091但是复选标记在源代码中是不可见的。我应该怎么做或者我可以用什么从网站上刮掉它？

JavaScript__DoPostback的web刮擦在td中包含herf

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档