当前位置：首页 > 面试题库 >

pyPdf用于IndirectObject提取

莫逸仙

2023-03-14

问题内容：

按照此示例，我可以将所有元素列出到pdf文件中

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

现在，我需要从pdf文件中提取非标准对象。

我的对象是一个名为MYOBJECT的对象，它是一个字符串。

与我有关的python脚本打印的部分是：

{'/MYOBJECT': IndirectObject(584, 0)}

pdf文件是这样的：

558 0 obj
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 R/Resources
  <</ColorSpace <</CS0 563 0 R>>
    /ExtGState <</GS0 568 0 R>>
    /Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>
    /ProcSet[/PDF/Text/ImageC]
    /Properties<</MC0<</MYOBJECT 584 0 R>>/MC1<</SubKey 582 0 R>> >>
    /XObject<</Im0 578 0 R>>>>
  /Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
...
584 0 obj
<</Length 8>>stream

1_22_4_1     --->>>>  this is the string I need to extract from the object

endstream
endobj

我如何跟随584值以引用我的字符串（当然在pyPdf下）？

问题答案：

中的每个元素pdf.pages都是字典，因此假设它在第1页上，pdf.pages[0]['/MYOBJECT']应该是您想要的元素。

您可以尝试单独打印或戳在它help和dir在提示更多关于如何得到你想要的字符串蟒蛇

编辑：

收到pdf副本后，我在找到了对象，pdf.resolvedObjects[0][558]['/Resources']['/Properties']['/MC0']['/MYOBJECT']可以通过getData（）检索值

以下函数通过递归查找有问题的密钥提供了一种更通用的解决方案

import types
import pyPdf
pdf = pyPdf.PdfFileReader(open('file.pdf'))
pages = list(pdf.pages)

def findInDict(needle,haystack):
    for key in haystack.keys():
        try:
            value = haystack[key]
        except:
            continue
        if key == needle:
            return value
        if type(value) == types.DictType or isinstance(value,pyPdf.generic.DictionaryObject):  
            x = findInDict(needle,value)
            if x is not None:
                return x

answer = findInDict('/MYOBJECT',pdf.resolvedObjects).getData()

类似资料：

用pyPdf打开pdf网址

问题内容：如何从网址而不是从磁盘打开pdf 就像是我想从网上打开几个文件，然后下载所有文件的合并文件。问题答案：我认为urllib2将为您提供所需的东西。
如何使用PyPdf逐行读取pdf文件？

问题内容：我有一些代码可以从pdf文件中读取。有没有一种方法可以在Windows上使用Pypdf，Python 2.6从pdf文件（不是页面）逐行读取？这是阅读pdf页面的代码：更新：呼叫代码是这样的：问题答案：看起来您拥有的是要逐行解释的大量文本数据。您可以使用StringIO类将该内容包装为可搜索的类似文件的对象：对于您的情况，请执行以下操作：
节点oidc-提供者(用于keycloak)

我正在尝试让一个基本的节点oidc提供者应用程序作为我的密钥斗篷服务器的oidc提供者。 Keycoat正确链接到我的应用程序的登录页面。输入用户名和密码后，我会被正确地传送回keycoat。但是，密钥斗篷显示“使用身份提供者进行身份验证时出现意外错误”。编辑：我调整了keycoat日志级别，现在看到以下错误：无法进行身份提供程序oauth回调：org.keycloak.broker.pro
Eclipse提取到不适用于Lambdas的方法

我在日蚀氧气里玩Lambda我有这样的代码我无法提取Dummy：：dothingsWithTwoArgs。Eclipse显示了一个编译错误语法错误，插入“AssignmentOperator Expression”以完成表达式，但提取在intellij中工作良好。在eclipse中有没有解决这个问题的方法？
用于提取字段的正则表达式

我有一个正则表达式来从完整命令中提取脚本名。它适用于大多数情况，但不适用于示例数据中的第一行。抽样资料输出应该是正则表达式不适用于第一行 https://regex101.com/r/cFjn85/1
Java Servlet，用于提供静态内容

问题内容：我在两个不同的容器（Tomcat和Jetty）上部署了一个webapp，但是它们用于提供静态内容的默认servlet具有处理我要使用的URL结构的不同方式（详细信息）。因此，我希望在web应用程序中包含一个小型servlet，以提供其自己的静态内容（图像，CSS等）。Servlet应该具有以下属性： No external dependencies Simple and reliab

相关阅读

Java库，用于从输入文本中提取关键字 HTML表单提交不适用于Spring Boot 2.3.1 Guice：一个“提供者””用于多种实现提供用于WhatsApp链接共享的图像基于Solr规则的提升

相关文章

用友，提前批，Java（一面，挂）用友2024前端SP提前批 PyTorch Convents特征提取 Tableau提取过滤器 MySQL适用于哪些场景

相关问答

用于从表中提取数据的HQL查询提交“按钮不能用于html代码基于列值从Dataframe提取行基于XSLT1.0的CDATA内容提取从矩阵中提取用于灵敏度分析的值

相关工具

UITextField 焦点提示适用于Ubuntu高可用服务器集群解决方案自动文字提示列表独立于window的按钮下拉刷新提示微博数目

相关文档

Java 提高篇 Knative入门构建基于 Kubernetes 的现代化 Serverless 应用关于 Python 的面试题 Keras 基于 Python 的深度学习库 Duang 基于配置自动生成 CMS