当前位置: 首页 > 面试题库 >

提取PDF注释/评论

公西天逸
2023-03-14
问题内容

我们有一个非常复杂的打印工作流程,其中控件使用Adobe Reader或Adobe
Acrobat为生成的PDF文档的草稿版本添加注释和注释。作为工作流的一部分,应解析导入的带有批注和注释的PDF文档,并将批注导入CMS系统(连同PDF)。

问:是否有可靠的工具(首选Python或Java)以干净可靠的方式将此类数据提取到PDF文件?


问题答案:

此代码应该可以完成工作。从pdf解析注释的问题的答案之一对让我编写下面的代码非常有帮助。它使用poppler库解析注释。这是annotations.pdf的链接。

import poppler, os.path

path = 'file://%s' % os.path.realpath('annotations.pdf')
doc = poppler.document_new_from_file(path, None)
pages = [doc.get_page(i) for i in range(doc.get_n_pages())]

for page_no, page in enumerate(pages):
    items = [i.annot.get_contents() for i in page.get_annot_mapping()]
    items = [i for i in items if i]
    print "page: %s comments: %s " % (page_no + 1, items)

输出

page: 1 comments: ['This is an annotation'] 
page: 2 comments: [' Please note ', ' Please note ', 'This is a comment in the text']

安装

在Ubuntu上,安装如下。

apt-get install python-poppler


 类似资料:
  • 以下是从PDF中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import o

  • 我需要提取word文档评论和他们评论的文本。下面是我当前的解决方案,但它无法正常工作 输出为(不正确): 预期产出为: 请帮我一个更好的方法来显示word文档评论和他们评论的文本。如果你需要额外的细节让我知道我会提供所有所需的细节

  • 问题内容: 我想要一个带pdf并返回文档中注释注释文本列表的python函数。我看过python- poppler(https://code.launchpad.net/~poppler-python/poppler- python/trunk ),但我不知道如何获取它来给我有用的东西。 我找到了该方法,并修改了通过调用它的演示程序,但是我不知道该如何处理AnnotMapping对象。它似乎没有完

  • 在当前项目中,我得到了以下: AnnotationException:没有为实体指定标识符:My.Package.EntityClass 或者这种行为在Hibernate版本之间发生了变化?

  • 我有(相同的)数据保存为GIF图像文件和PDF文件,我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件!一般来说,这些文件包含一些页眉和页脚文本,以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子,我也开始尝试将表格数据解析为超文本语言标记/XML: PDF格式 PDFBox||iText(Java) 谷歌文档导

  • 本文向大家介绍Oracle 获取表注释和列注释,包括了Oracle 获取表注释和列注释的使用技巧和注意事项,需要的朋友参考一下 全部表 表的注释 列的注释 相应的还有dba_col_comments,all_col_comments,这两个比user_col_comments多了ower列 以上所述是小编给大家介绍的Oracle 获取表注释和列注释,希望对大家有所帮助,如果大家有任何疑问请给我留言