问题：

我的PDF文件内容提取其内容后没有意义[重复]

微生令雪

2023-03-14

我一直有一个严重的问题与我的PDF文件。我想从我的PDF中提取所有的文本。提取后，我有所有的字节码。

b'%PDF-1.7\r\n%\xb5\xb5\xb5\xb5\r\n1 0 obj\r\n<</Type/Catalog/Pages 2 0 R/Lang(en-US) /Metadata 89 0 R/ViewerPreferences 90 0 R>>\r\nendobj\r\n2 0 obj\r\n<</Type/Pages/Count 11/Kids[ 3 0 R 28 0 R 36 0 R 38 0 R 42 0 R 49 0 R 58 0 R 60 0 R 62 0 R 64 0 R 66 0 R] >>\r\nendobj\r\n3 0 obj\r\n<</Type/Page/Parent 2 0 R/Resources<</Font<</F1 5 0 R/F2 9 0 R/F3 12 0 R/F4 17 0 R/F5 19 0 R>>/ExtGState<</GS7 7 0 R/GS8 8 0 R>>/XObject<</Image27 27 0 R>>/ProcSet[/PDF/Text/ImageB/ImageC/ImageI] >>/Annots[ 11 0 R 24 0 R 25 0 R 26 0 R] /MediaBox[ 0 0 612 792] /Contents 4 0 R/Group<</Type/Group/S/Transparency/CS/DeviceRGB>>/Tabs/S>>\r\nendobj\r\n4 0 obj\r\n<</Filter/FlateDecode/Length 5962>>\r\nstream\r\nx\x9c\xc5][o\xe3\xc6\x92~\x1f`\xfeC?J\x81\x87!\xbby\x1d\x1c,0\x17\'9\x07\xc9\\l\x03\xd9 \xc9\x03-\xd1\x16weI!9\xe3\xf1\xbf\xdf\xfa\xaa\x9b\x17\x89\xa4\xec\x91Z\xde\x01\xac\x91\xa8&\xab\xba\xaa\xba\xee\xdd\xfa\xe7\xe5\x0b\xd7q\xf1/\xf1\xa4pEH\xafQ"E\x91\xbd|\xf1\xfb\x0fb\xf5\xf2\xc5\xdb\xab\x97/~\xfc\xc9\x13\x9e\xe7\xb8\xbe\xb8\xbay\xf9\xc2\xa3q\xae\xf0\x84\x1f\x06\x8e\xa4\xe1A\xe2$\xa1\xb8\xba\xa3q?_F\xe2\xb6\xa4g\x8a[\xfe\x14\x9bO?\xbf|\xf1\xe7\xe4\xd7\xe9+5I\xcbJ\xe0\xff/S5\xd9\xd0\xdf\x9c\xfe\xd2j\xea\xb9\x93l\xfeZL\xff\x16W\xffy\xf9\xe2\x9c`~~\xf9\xe2\x9f#\x90\x0bd\xec\x04q\x179\xc6\xc9\xa0\xa2\x80\xc2\x8f\xd3P\xbfq\xa7\x11}x\xe5O$\xbd\xc1\x07\x0fWc\x8b\xc8D\xa1\xe3\xc91d\xbe{\xd6z\x90r\x9d\xd8\x17a(\x9d\xc8\x17^\xec9I$\x12\xfa@\x17\xdb\xa1O\x1d\xa7q\x97\x82`u\x11W\xa1\x88|\x1f\xb8?\x8e\xf4\xe7\xfa\x8d\xf4\x94#\x93\x1a\xa2\nb\xc7U\x83\x98=m`\x83Z\xc0\xc4\xeb`\'\xbd\xd8\xf1\x03\xc2\xd0ud\xdc\xc3\xf0\xb7\xacJ\xb5t\xa5\xd3Wr2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
data = response.content

print(data)

我怎样才能从中提取文本呢？

共有1个答案

鲁淇

2023-03-14

您需要使用一个包来解析PDF文件并从中提取文本。例如，pypdf2可以按如下方式使用：

import io
import requests
import PyPDF2

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url, stream=True)
pdf = PyPDF2.PdfFileReader(io.BytesIO(response.content))

with open('output.txt', 'w') as f_output:
    for page in range(pdf.getNumPages()):
        f_output.write(pdf.getPage(page).extractText())

这将创建一个output.txt文件，开始于：

Last updated: 
3/30/2018


Metadata: 
Tivoli Bay 
South

Hydrologic

Station

Location: 
Tivoli Bay
, NY
(
42.027038, 
-
73.925957
)

Data collection period:

July

1996*

类似资料：

从一组PDF文件中提取表格内容

问题内容：我有一堆PDF-可能是数百或数千。它们的格式并非全部相同，但是它们中的任何一个都可以具有一个或多个表，这些表包含我想收集到单独数据库中的有趣信息。当然，我知道我必须写点东西才能做到这一点。Perl是我的选择-也许是Java。只要是免费的，我就不在乎什么语言（或者免费试用，以确保它适合我的目的）。我正在查看CAM :: Parse（使用Strawberry Perl），但是我不确定如
提取jms文本内容
读取文本文件内容Javascript[重复]

我想访问“onload”功能之外的文件内容。我知道这与异步有关。下面是我的js函数：谢谢大家！
在没有根文件夹的文件夹内压缩内容

问题内容：我想将内容中的某些目录压缩为zip文件例如假设我有这个目录结构现在我想将其压缩到哪个正在工作当我解压缩它时，我得到了相同的结构…我想将内容压缩到其中，当我解压缩它时，提取文件后，我得到的文件里面没有root文件夹dir1 我尝试使用此代码处理路径，但是它不起作用，我在这里错过了什么吗？我试过了或者也许GO中有更简单的方法来实现这一目标？问题答案：假设您正在按以下方
从PDF中提取不可选择的内容

我正在使用Apache PDFBox从PDF文件中提取页面，我找不到一种方法来提取不可选择的内容（文本或图像）。有了可从PDF文件中选择的内容，就没有问题了。请注意，所讨论的PDF文件在复制内容方面没有任何限制，至少从我在文件的“文档限制摘要”中看到的是这样的：它们都允许“内容复制”和“内容复制以供访问”！在同一个PDF文件中，有可选择的内容，也有不可选择的其他部分。发生的情况是，提取的页面带有
读取JSON文件并显示其内容

问题内容：我的Unix机器上有文件test.json，其数据如下现在，我正在编写 REST jersey客户端以读取test.json并显示如下输出如何阅读test.json并显示其内容？问题答案：对于：对于：您的数据将在对象内部

我的PDF文件内容提取其内容后没有意义[重复]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档