当前位置: 首页 > 知识库问答 >
问题:

如何使用Python下载pdf文件?

龚国源
2023-03-14

我正在寻找一种在python中下载pdf文件的方法,我看到了关于推荐urllib模块的其他问题的答案。我试图用它下载一个pdf文件,但是当我试图打开下载的文件时,一条消息显示该文件无法打开。

错误消息

这是我使用的代码-

import urllib
urllib.urlretrieve("http://papers.gceguide.com/A%20Levels/Mathematics%20(9709)/9709_s11_qp_42.pdf", "9709_s11_qp_42.pdf")

我做错了什么?此外,该文件会自动保存到python文件所在的目录中。如何更改它保存到的位置?

编辑-我再次尝试使用示例pdf的链接,http://unec.edu.az/application/uploads/2014/12/pdf-sample.pdf

代码与此链接一起工作,那么为什么它不适用于另一个呢?

共有3个答案

令狐弘益
2023-03-14
  • 您不能使用请求urllib从给定的url下载pdf内容。
  • 因为最初给定的url指向另一个网页,之后只有它加载pdf。
  • 如果您有疑问,请将响应保存为html而不是pdf。
  • 您需要使用无头浏览器,如panthomJS从这些网页下载文件。
利海阳
2023-03-14

您还可以使用wget通过以下链接下载PDF:

import wget

wget.download(link)

这里有一个关于如何搜索的指南

南门祯
2023-03-14

试试这个。它起作用了。

import requests
url='https://pdfs.semanticscholar.org/c029/baf196f33050ceea9ecbf90f054fd5654277.pdf'
r = requests.get(url, stream=True)

with open('C:/Users/MICRO HARD/myfile.pdf', 'wb') as f:
f.write(r.content)
 类似资料:
  • 我正在尝试下载https://occ.ca/our-publications 我的最终目标是解析PDF文件中的文本并定位某些关键字。 到目前为止,我已经能够抓取所有页面上PDF文件的链接。我已将这些链接保存到列表中。现在,我想浏览一下列表并用Python下载所有pdf文件。下载完文件后,我想对它们进行解析。 这是我迄今为止使用的代码: 这是我运行代码时遇到的错误。 回溯(最近的最后一次调用):ur

  • 问题内容: 我正在尝试使用selenium从网站下载pdf文件,但我能够打开文件,但无法使用代码自动下载。 码: 请提出建议。先感谢您 问题答案: 以上问题现已解决

  • 我正在编写一个python脚本,它将根据URL中给定的格式在本地保存pdf文件。例如。 我正在通过python脚本打开此URL: url包含大量图像和文本。一旦这个URL被打开,我想用python脚本以pdf格式保存一个文件。 这是我到目前为止所做的。 代码1: 代码2: 在上面的代码我得到: urllib2.HTTP错误401:未授权 如果使用代码2,如何传递授权详细信息?

  • 我正在使用selenium webdriver自动下载几个PDF文件。我得到PDF预览窗口(见下文),现在我想下载文件。我如何使用谷歌Chrome作为浏览器来实现这一点?

  • 我无法找到正确的方法来实现我的目标,即下载带有java selenium脚本的pdf。

  • 问题内容: 我试图使用Python从Internet下载某些内容,但我使用的是urllib模块,但无法正常工作。我希望能够将下载的文件保存到我选择的位置。如果有人可以用清晰的例子向我解释如何做到这一点,将不胜感激。 问题答案: 我建议像这样使用urllib2: 您甚至可以将其缩短为(尽管,如果您打算将每个单独的调用括在-中,则不想将其缩短):