当前位置：首页 > 面试题库 >

提取PDF注释/评论

公西天逸

2023-03-14

问题内容：

我们有一个非常复杂的打印工作流程，其中控件使用Adobe Reader或Adobe
Acrobat为生成的PDF文档的草稿版本添加注释和注释。作为工作流的一部分，应解析导入的带有批注和注释的PDF文档，并将批注导入CMS系统（连同PDF）。

问：是否有可靠的工具（首选Python或Java）以干净可靠的方式将此类数据提取到PDF文件？

问题答案：

此代码应该可以完成工作。从pdf解析注释的问题的答案之一对让我编写下面的代码非常有帮助。它使用poppler库解析注释。这是annotations.pdf的链接。

码

import poppler, os.path

path = 'file://%s' % os.path.realpath('annotations.pdf')
doc = poppler.document_new_from_file(path, None)
pages = [doc.get_page(i) for i in range(doc.get_n_pages())]

for page_no, page in enumerate(pages):
    items = [i.annot.get_contents() for i in page.get_annot_mapping()]
    items = [i for i in items if i]
    print "page: %s comments: %s " % (page_no + 1, items)

输出

page: 1 comments: ['This is an annotation'] 
page: 2 comments: [' Please note ', ' Please note ', 'This is a comment in the text']

安装

在Ubuntu上，安装如下。

apt-get install python-poppler

类似资料：

提取PDF（Extracting PDF）

以下是从PDF中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import o
提取word文档注释和它们注释的文本

我需要提取word文档评论和他们评论的文本。下面是我当前的解决方案，但它无法正常工作输出为（不正确）：预期产出为：请帮我一个更好的方法来显示word文档评论和他们评论的文本。如果你需要额外的细节让我知道我会提供所有所需的细节
解析pdf中的注释

问题内容：我想要一个带pdf并返回文档中注释注释文本列表的python函数。我看过python- poppler（https://code.launchpad.net/~poppler-python/poppler- python/trunk ），但我不知道如何获取它来给我有用的东西。我找到了该方法，并修改了通过调用它的演示程序，但是我不知道该如何处理AnnotMapping对象。它似乎没有完
Hibernate不在getter中提取@id注释

在当前项目中，我得到了以下: AnnotationException：没有为实体指定标识符：My.Package.EntityClass 或者这种行为在Hibernate版本之间发生了变化？
PDF表格提取

我有（相同的）数据保存为GIF图像文件和PDF文件，我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件！一般来说，这些文件包含一些页眉和页脚文本，以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子，我也开始尝试将表格数据解析为超文本语言标记/XML： PDF格式 PDFBox||iText（Java）谷歌文档导
Oracle 获取表注释和列注释

本文向大家介绍Oracle 获取表注释和列注释，包括了Oracle 获取表注释和列注释的使用技巧和注意事项，需要的朋友参考一下全部表表的注释列的注释相应的还有dba_col_comments，all_col_comments，这两个比user_col_comments多了ower列以上所述是小编给大家介绍的Oracle 获取表注释和列注释，希望对大家有所帮助，如果大家有任何疑问请给我留言

相关阅读

Java 6注释处理-从注释获取类 PDF提取中的空白和奇怪的单词解释使用iText复制带注释的PDF Spring 3.0.5不评估属性中的@Value注释如何能够从doxygen函数内部提取注释？

相关文章

CSS注释 JSP注释 MySQL注释 Python注释 Java注释

相关问答

如何填充PDF文本框注释 PDF从图像添加邮票注释按列提取PDF文本使用iText复制带有注释的PDF 将Spring@Value注释评估为原始布尔值

相关工具

pdf Groovy PDF PDF Chain markdown-pdf PDF Download

相关文档

Pandas Cookbook 带注释源码 Java 提高篇 Python 取证中文教程人工智能会取代人类吗？通信的数学理论