我正试图从航班搜索页面中获取一些数据。
此页面的工作方式如下:
您填写表格,然后单击“搜索”按钮-这是确定的。当你点击按钮时,你会被重定向到有结果的页面,问题就在这里。这个页面不断添加结果,例如一分钟,这不是什么大问题-问题是要获得所有这些结果。当您在real browser中时,您必须向下滚动页面并显示这些结果。所以我尝试使用Selenium向下滚动。它在页面底部向下滚动的速度可能非常快,或者它是一个跳转而不是滚动,因此页面不会加载任何新结果。
当你慢慢向下滚动时,它会重新加载结果,但是如果你非常快地滚动,它会停止加载。
我不确定我的代码是否有助于理解这一点,因此我附加了它。
SEARCH_STRING = """URL"""
class spider():
def __init__(self):
self.driver = webdriver.Firefox()
@staticmethod
def prepare_get(dep_airport,arr_airport,dep_date,arr_date):
string = SEARCH_STRING%(dep_airport,arr_airport,arr_airport,dep_airport,dep_date,arr_date)
return string
def find_flights_html(self,dep_airport, arr_airport, dep_date, arr_date):
if isinstance(dep_airport, list):
airports_string = str(r'%20').join(dep_airport)
dep_airport = airports_string
wait = WebDriverWait(self.driver, 60) # wait for results
self.driver.get(spider.prepare_get(dep_airport, arr_airport, dep_date, arr_date))
wait.until(EC.invisibility_of_element_located((By.XPATH, '//img[contains(@src, "loading")]')))
wait.until(EC.invisibility_of_element_located((By.XPATH, u'//div[. = "Poprosíme o trpezlivosť, hľadáme pre Vás ešte viac letov"]/preceding-sibling::img')))
self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")
self.driver.find_element_by_xpath('//body').send_keys(Keys.CONTROL+Keys.END)
return self.driver.page_source
@staticmethod
def get_info_from_borderbox(div):
arrival = div.find('div',class_='departure').text
price = div.find('div',class_='pricebox').find('div',class_=re.compile('price'))
departure = div.find_all('div',class_='departure')[1].contents
date_departure = departure[1].text
airport_departure = departure[5].text
arrival = div.find_all('div', class_= 'arrival')[0].contents
date_arrival = arrival[1].text
airport_arrival = arrival[3].text[1:]
print 'DEPARTURE: '
print date_departure,airport_departure
print 'ARRIVAL: '
print date_arrival,airport_arrival
@staticmethod
def get_flights_from_result_page(html):
def match_tag(tag, classes):
return (tag.name == 'div'
and 'class' in tag.attrs
and all([c in tag['class'] for c in classes]))
soup = mLib.getSoup_html(html)
divs = soup.find_all(lambda t: match_tag(t, ['borderbox', 'flightbox', 'p2']))
for div in divs:
spider.get_info_from_borderbox(div)
print len(divs)
spider_inst = spider()
print spider.get_flights_from_result_page(spider_inst.find_flights_html(['BTS','BRU','PAR'], 'MAD', '2015-07-15', '2015-08-15'))
所以在我看来,主要的问题是它的滚动速度太快,无法触发新的结果加载。
你知道如何让它工作吗?
这里有一种对我有用的不同方法,包括滚动到最后一个搜索结果的视图中,并在再次滚动之前等待加载其他元素:
# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import StaleElementReferenceException
from selenium.webdriver.support import expected_conditions as EC
class wait_for_more_than_n_elements(object):
def __init__(self, locator, count):
self.locator = locator
self.count = count
def __call__(self, driver):
try:
count = len(EC._find_elements(driver, self.locator))
return count >= self.count
except StaleElementReferenceException:
return False
driver = webdriver.Firefox()
dep_airport = ['BTS', 'BRU', 'PAR']
arr_airport = 'MAD'
dep_date = '2015-07-15'
arr_date = '2015-08-15'
airports_string = str(r'%20').join(dep_airport)
dep_airport = airports_string
url = "https://www.pelikan.sk/sk/flights/list?dfc=C%s&dtc=C%s&rfc=C%s&rtc=C%s&dd=%s&rd=%s&px=1000&ns=0&prc=&rng=1&rbd=0&ct=0" % (dep_airport, arr_airport, arr_airport, dep_airport, dep_date, arr_date)
driver.maximize_window()
driver.get(url)
wait = WebDriverWait(driver, 60)
wait.until(EC.invisibility_of_element_located((By.XPATH, '//img[contains(@src, "loading")]')))
wait.until(EC.invisibility_of_element_located((By.XPATH,
u'//div[. = "Poprosíme o trpezlivosť, hľadáme pre Vás ešte viac letov"]/preceding-sibling::img')))
while True: # TODO: make the endless loop end
results = driver.find_elements_by_css_selector("div.flightbox")
print "Results count: %d" % len(results)
# scroll to the last element
driver.execute_script("arguments[0].scrollIntoView();", results[-1])
# wait for more results to load
wait.until(wait_for_more_than_n_elements((By.CSS_SELECTOR, 'div.flightbox'), len(results)))
注意事项:
len(results)
valuewait\u for\u more\u\n\u元素
是一种自定义的预期条件,有助于确定何时加载下一部分,我们可以再次滚动经过一些实验,我终于找到了一个很好的解决方案:
def __scroll_down_page(self, speed=8):
current_scroll_position, new_height= 0, 1
while current_scroll_position <= new_height:
current_scroll_position += speed
self.__driver.execute_script("window.scrollTo(0, {});".format(current_scroll_position))
new_height = self.__driver.execute_script("return document.body.scrollHeight")
同样的问题我需要它我需要刮一个社交媒体网站
y = 1000
for timer in range(0,50):
driver.execute_script("window.scrollTo(0, "+str(y)+")")
y += 1000
time.sleep(1)
每1000次睡眠允许加载
我正试图从航班搜索页面中获取一些数据。 此页面的工作方式如下: 您填写表格,然后单击“搜索”按钮-这是确定的。当你点击按钮时,你会被重定向到有结果的页面,问题就在这里。这个页面不断添加结果,例如一分钟,这不是什么大问题-问题是要获得所有这些结果。当您在real browser中时,您必须向下滚动页面并显示这些结果。所以我尝试使用Selenium向下滚动。它在页面底部向下滚动的速度可能非常快,或者它
问题内容: 好的,所以我找不到任何有关此的信息。 我知道更改网站的滚动速度是可怕的,但是我需要对一个比网站更具游戏性的网站进行更改。 有人可以告诉我如何降低滚动速度吗?jQuery或CSS? 编辑:我想改变人们用鼠标滚轮滚动时的scrollspeed。 问题答案: NiceScroll]插件 jQuery
问题内容: 我已经在Selenium 1(又名Selenium RC)中编写了以下代码,以便使用Java进行页面滚动: Selenium 2(WebDriver)中的等效代码是什么? 问题答案: 对于向下滚动: 或者,您可以执行以下操作: 对于向上滚动:
请帮帮我,我想向下滚动到菜的结尾,但它停止了。我尝试的代码在这里
我使用无头铬硒包。当我手动访问网站并向下滚动时,它会加载更多的iTen,下面显示的while循环中的列表“nome”会更新。当我使用selenium和一个头部浏览器时,它也可以工作。为什么页面没有加载headless?也许这无关紧要,但我也从ua更改了userAgent。随机发送到ua['Chrome']。 我从这里得到的,
问题内容: 有人可以帮助我使用 Java* 使用 WebDriver 自动 向下滚动功能 吗? *** 就我而言,当我垂直向下滚动鼠标时,对于yahoo邮件就会显示( 可见 )。 问题答案: 您可以使用以下代码垂直向下滚动: 同样,也可以通过将y坐标更改为负值来向上滚动: 您还可以使用以下代码: 对于向下滚动: 向上滚动: