这是我的情况:我必须登录到一个网站并从那里下载CSV,而从linux服务器无头。该页面使用JS,没有它就无法工作。
经过一些研究,我选择了Selenium和PhantomJS。登录,设置CSV参数并使用Selenium / PhantomJS /
Py3查找下载按钮没有问题,实际上令人称奇。
但是单击下载按钮没有任何作用。经过一番研究,我发现PhantomJS似乎不支持下载对话框和下载,但它即将出现在功能列表中。
因此,urllib
当我发现下载按钮只是调用REST
API网址后,我以为我使用了一种解决方法。问题是,仅当您登录到站点时,它才有效。所以第一次尝试失败了,因为它返回了:b'{"success":false,"session":"expired"}'
这很有意义,因为我期望Selenium和urllib使用不同的会话。所以我想我在尝试使用urrlib中Seleniums驱动程序的标头:
...
url = 'http://www.foo.com/api/index'
data = urllib.parse.urlencode({
'foopara': 'cadbrabar',
}).encode('utf-8')
headers = {}
for cookie in driver.get_cookies():
headers[cookie['name']] = cookie['value']
req = urllib.request.Request(url, data, headers)
with urllib.request.urlopen(req) as response:
page = response.read()
driver.close()
不幸的是,这产生了过期会话的相同结果。我做错什么了吗,还有其他建议可以解决吗?还是我走到了尽头?提前致谢。
我找到了一个解决方案,并希望分享。一项要求发生了变化,我不再使用PhantomJS
了,但chromedriver
它与虚拟帧缓冲区毫无关系。结果相同,就可以完成工作。
您需要的是:
pip install selenium pyvirtualdisplay
apt-get install xvfb
我将Py3.5和ovh.net的测试文件与标签而不是按钮一起使用。脚本等待页面上显示,然后单击它。如果您不等待该元素并且位于异步站点上,那么您尝试单击的元素可能还不存在。下载位置是相对于脚本位置的文件夹。该脚本会检查该目录,如果文件已被第二次延迟下载。如果我没有记错的话,在下载过程中文件应该是.part,并且一旦它变成filename
脚本中指定的.dat,就应该完成。如果关闭虚拟帧缓冲区和驱动程序,下载将无法完成。完整的脚本如下所示:
# !/usr/bin/python
# coding: utf-8
import os
import sys
import time
from pyvirtualdisplay import Display
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import glob
def main(argv):
url = 'http://ovh.net/files'
dl_dir = 'downloads'
filename = '1Mio.dat'
display = Display(visible=0, size=(800, 600))
display.start()
chrome_options = webdriver.ChromeOptions()
dl_location = os.path.join(os.getcwd(), dl_dir)
prefs = {"download.default_directory": dl_location}
chrome_options.add_experimental_option("prefs", prefs)
chromedriver = "./chromedriver"
driver = webdriver.Chrome(executable_path=chromedriver, chrome_options=chrome_options)
driver.set_window_size(800, 600)
driver.get(url)
WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, '//a[@href="' + filename + '"]')))
hyperlink = driver.find_element_by_xpath('//a[@href="' + filename + '"]')
hyperlink.click()
while not(glob.glob(os.path.join(dl_location, filename))):
time.sleep(1)
driver.close()
display.stop()
if __name__ == '__main__':
main(sys.argv)
我希望这对以后的人有所帮助。
问题内容: 我正在尝试获取下载链接并下载文件。 我有一个包含以下链接的日志文件: 我有这样的代码: 到目前为止,我不知道如何获取下载链接并下载它。可以使用selenium下载文件吗? 问题答案: 根据文档,您应该配置为自动下载具有指定内容类型的文件。这是在txt文件中使用第一个URL的示例,该文件将文件保存在当前目录中: 注意,我也简化了xpath。
问题内容: 我正在尝试使用selenium从网站下载pdf文件,但我能够打开文件,但无法使用代码自动下载。 码: 请提出建议。先感谢您 问题答案: 以上问题现已解决
我正在使用selenium webdriver自动下载几个PDF文件。我得到PDF预览窗口(见下文),现在我想下载文件。我如何使用谷歌Chrome作为浏览器来实现这一点?
问题内容: 我正在使用selenium对超链接执行单击功能,该超链接已加载在特定页面上。该脚本适用于Google chrome,但不适用于phantomjs。为什么这不起作用? 这在chrome中有效,但始终会打开一个新的chrome窗口以完成任务。我读到我应该使用phantomjs使其在后台运行,但是当我将驱动程序切换到phantomjs时,下载似乎没有完成。屏幕截图已抓取,并且确实在正确的页面
问题内容: 我试图使用Python从Internet下载某些内容,但我使用的是urllib模块,但无法正常工作。我希望能够将下载的文件保存到我选择的位置。如果有人可以用清晰的例子向我解释如何做到这一点,将不胜感激。 问题答案: 我建议像这样使用urllib2: 您甚至可以将其缩短为(尽管,如果您打算将每个单独的调用括在-中,则不想将其缩短):
我正试图从一个包含阿根廷代表投票的公共网站自动下载excel文件。例如,来自以下页面:https://votaciones.hcdn.gob.ar/votacion/4108 我收到以下消息: selenium.common.exceptions。ElementClickInterceptedException:消息:元素在点(229480)处不可单击,因为另一个元素使其模糊 如果我尝试通过< c