相信爬取大公司的数据时,常常会遇到页面信息动态加载的问题,
如果仅仅使用content = urllib2.urlopen(URL).read(),估计信息是获取不全的,这时候就需要模拟浏览器加载页面的过程,
selenium提供了方便的方法,我也是菜鸟,试了很多种方式,下面提供觉得最靠谱的(已经证明对于爬取新浪微博的topic、twitter under topic完全没问题)。
至于下面的browser变量是什么,看前面的几篇文章。
首先是请求对应的URL:
right_URL = URL.split("from")[0] + "current_page="+str(current_page) + "&since_id="+str(since_id) + "&page="+str(page_index) + "#Pl_Third_App__"+str(Pl_Third_App) print right_URL try: browser.get(right_URL) print "loading more, sleep 3 seconds ... 0" time.sleep(3) # NO need for this sleep, but we add ... browser = selenuim_loading_more(browser, method_index=0) except: print "one exception happen ==> get_tweeter_under_topic 2 ..." pass
然后模拟浏览器,加载更多(推荐使用method_index=0,已经证明比其他好用很多):
def selenuim_loading_more(browser, method_index=0): if method_index==0: browser.implicitly_wait(3) # 为了快速滑动,先设置超时时间为1秒 # while True: for i in range(1, 4): # at most 3 times print "loading more, window.scrollTo bettom for the", i,"time ..." browser.execute_script("window.scrollTo(0,document.body.scrollHeight);") try: # 定位页面底部的换页tab browser.find_element_by_css_selector("div[class='W_pages']") break # 如果没抛出异常就说明找到了底部标志,跳出循环 except NoSuchElementException: pass # 抛出异常说明没找到底部标志,继续向下滑动 browser.implicitly_wait(4) # 将超时时间改回10秒 elif method_index==1: browser.find_element_by_css_selector("div[class='empty_con clearfix']").click() # loading more print "loading more, sleep 4 seconds ... 1" time.sleep(4) browser.find_element_by_css_selector("div[class='empty_con clearfix']").click() # loading more print "loading more, sleep 3 seconds ... 2" time.sleep(2) elif method_index==2: load_more_1 = browser.find_element_by_css_selector("div[class='empty_con clearfix']") # loading more ActionChains(browser).click(load_more_1).perform() print "loading more, sleep 4 seconds ... 1" time.sleep(4) load_more_2 = browser.find_element_by_css_selector("div[class='empty_con clearfix']") # loading more ActionChains(browser).click(load_more_2).perform() print "loading more, sleep 3 seconds ... 2" time.sleep(2) elif method_index==3: print "loading more, sleep 4 seconds ... 1" element = WebDriverWait(browser, 4).until( EC.element_to_be_clickable((By.CSS_SELECTOR, "div[class='empty_con clearfix']")) ) element.click() print "loading more, sleep 2 seconds ... 2" WebDriverWait(browser, 2).until( EC.element_to_be_clickable((By.CSS_SELECTOR, "div[class='empty_con clearfix']")) ).click() return browser
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。
问题内容: 这是我以前在这里发表的上一篇文章的扩展,我无法上班,但是更新Selenium后现在出现新错误。 我正在使用Python 3.5,Windows 8.1,Selenium 3.0.1 我知道代码可以工作,因为它可以在我的MAC上工作,但是当我将代码转移到如上所述的工作计算机上时,发生的唯一事情是浏览器将打开,但不会加载任何内容,甚至不会加载主页。 从搜索中可以找到的所有内容中,我下载了g
本文向大家介绍用JavaScript实现让浏览器停止载入页面的方法,包括了用JavaScript实现让浏览器停止载入页面的方法的使用技巧和注意事项,需要的朋友参考一下 本想弄个判断页面载入时间,过长就不加载特效的JavaScript代码,不过还是有点缺陷,这里就记录下来吧。 IE浏览器用document.execCommand("Stop"),Chrome和Firefox用window.stop(
我正在使用selenium使用chrome浏览器来自动化网页,但是chrome浏览器没有启动,它在地址栏中显示“数据:;”而没有加载任何页面。 selenium: selenium-服务器-独立-3.0.0-beta2,也尝试了2.53 Chrome驱动程序:2.23(http://chromedriver.storage.googleapis.com/index.html?path=2.23/)
问题内容: 是否存在检测selenium浏览器何时打开错误页面的通用方法?例如,禁用您的互联网连接并执行 在Firefox中,Selenium将加载“重试”错误页面,其中包含诸如“ Firefox无法在www.google.com上建立与服务器的连接”之类的文本。selenium不会引发任何错误。 是否存在与浏览器无关的方法来检测这些情况?对于Firefox(Python),我可以做 但是(1)这
本文向大家介绍Python爬虫实现模拟点击动态页面,包括了Python爬虫实现模拟点击动态页面的使用技巧和注意事项,需要的朋友参考一下 动态页面的模拟点击: 以斗鱼直播为例:http://www.douyu.com/directory/all 爬取每页的房间名、直播类型、主播名称、在线人数等数据,然后模拟点击下一页,继续爬取 代码如下 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多
问题内容: 我的Selenium Webdriver转到页面并等待该页面完成加载。如果30秒过去,它将超时并且脚本失败。 无论如何,是否要让网络驱动程序在30秒后停止页面加载(例如按浏览器中的“ x”)?这样可以防止驱动程序超时。 我正在使用Chromedriver。 问题答案: 这就是我遇到此问题的方式。在chrome支持之前,我将使用这种方式。 我在Chrome中安装了一个名为“停止加载”的扩