我想下载一个网页的完整html,我已经写了一些代码来做到这一点。然而,当我回头看下载的html时,我发现只有大约一半的html存在。我认为这是因为网页是动态的,当你与网页交互时,会加载更多的信息。我一直在尝试使用PhantomJS与ChromeDriver Manager协调一致地执行此操作,但运气不佳。这是只下载部分html的代码(我再次相信,因为页面是动态的):
from bs4 import BeautifulSoup
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
import os
import re
import time
driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)
driver.get(''https://medium.com/@benjaminhardy')
time.sleep(25)
html = driver.page_source
driver.close()
这是我对PhantomJS的尝试,但没有运气:
driver = webdriver.Chrome(ChromeDriverManager().install().PhantomJS())
driver.get('https://medium.com/@benjaminhardy')
html = driver.page_source
time.sleep(25)
driver.close()
error:'str' object has no attribute 'PhantomJS'
您可以直接使用请求库。例如:
import requests
page = requests.get('https://medium.com/@benjaminhardy')
print(page.content)
这样做的另一个好处是,请求与python预先绑定,因此您不需要下载任何额外的内容。
如果您正在使用BeautifulSoup,只需使用:
soup = BeautifulSoup(page.content)
问题内容: 目前,我有一个只能下载给定页面的脚本。 现在我想 下载网页中的所有文件 ,包括,,和 图像文件 (同我们得到任何网站的CTRL-S)。 我当前的代码是: 我访问了许多问题,但它们都只下载了。 问题答案: 以下实现使您能够获取HTML子网站。为了获得您需要的其他文件,可以对其进行更完善的开发。我为您设置了变量,以设置要解析的最大sub_websites。 Python3版本,2019年。
问题内容: 有什么方法可以使用WebDriver保存完整的网页吗? 当前,我执行getPageSource(),然后将所有内容放入html本地文件中,但是保存的页面的形状不好(奇怪的字符,没有图像,所有元素向下偏移) 请参阅以下我使用的代码: 有人可以建议我使用WebDriver在Firefox中保存完整网页的方法吗?例如自动? 问题答案: 奇怪的字符可能与写入文件的编码有关。 其他问题可能与以下
问题内容: 您好,我正在尝试从网页下载图像。我正在尝试从“ http://www.yahoo”主页下载该图像。请告诉我如何传递“ http://www.yahoo”作为输入。以及在打开此网页时如何从该页面获取图像。请给我Java代码以从网页获取图像。 问题答案: (throws IOException) 请参阅包装以获取更多信息。那是使用AWT图片。否则,您可以执行以下操作: 然后您可能想要保存图
问题内容: 我想使用scrapy下载整个页面的内容。 使用硒,这很容易: 但是,硒要比沙皮慢得多。 这是一种简单的方法吗? 我想将每个页面的代码保存在不同的文件文本中,而不是另存为csv或json文件。另外,如果在不创建项目的情况下也是可行的,那么对于这样一个简单的任务而言似乎有点过大。 问题答案: 代码将下载此页面并将其保存在文件中 test_scr.py 通过此命令运行
我有大约1200点的谷歌地图。当我试图将其保存为KML或Google Earth中的视图时,只有1000点。是否有办法(例如使用一些API)下载所有点(我不需要KML-我只需要带描述的坐标-可能是其他格式)? 地图可以在这里找到。当您保存KML将没有从第6页点。
问题内容: 我正在寻找一种从网站自动下载文件的方法。 目前,该过程确实是手动且繁重的。我进入网页,输入通行证并登录。它打开一个弹出窗口,在这里我必须单击下载按钮以保存.zip文件。 您对我如何自动执行此任务有任何建议? 我在Windows 7上,主要可以使用MS Dos Batch或python。但是我愿意接受其他想法。 问题答案: 您可以使用Selenium Web驱动程序自动执行下载。您可以在