当前位置: 首页 > 面试题库 >

使用Python进行PDF解析-提取格式化和纯文本

上官英哲
2023-03-14
问题内容

我正在寻找一个PDF库,它将允许我从PDF文档中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表,则表中的文本将与文档其余文本一起在线提取。这可能会引起问题,因为它会生成无用的文本部分,看起来有些乱码(例如,许多数字混在一起)。

我想从PDF文档中提取文本,但 不包括 任何表格和特殊格式。那里有图书馆吗?


问题答案:

您还可以看一下PDFMiner(或者对于旧版本的Python,请参阅PDFMiner和PDFMiner)。

PDFMiner中感兴趣的一个特殊功能是,您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行,单词,字符等之间的间距来执行此操作。因此,也许可以通过对此进行调整来实现所需的功能(取决于文档的可变性)。PDFMiner还可以为您提供文本在页面中的位置,它可以按对象ID和其他内容提取数据。因此,挖掘PDFMiner并发挥创造力吧!

但是您的问题确实不是一个容易解决的问题,因为在PDF中,文本不是连续的,而是由许多绝对位于页面中的小字符组成的。PDF的重点是保持布局完整。它不是面向内容的,而是面向呈现的。



 类似资料:
  • 问题内容: 我正在做一个Maven项目,该项目使我可以解析网站中的html数据。我可以使用下面的代码来解析它: 到目前为止,我还没有问题。我可以解析html数据。我正在从jsoup中使用select方法,并使用“ div.col- section”检索数据,这意味着我正在使用class为col- section的div元素进行查找。我想在textarea中打印数据。即使网站上的实际数据超过一个段落

  • 本文向大家介绍python中使用%与.format格式化文本方法解析,包括了python中使用%与.format格式化文本方法解析的使用技巧和注意事项,需要的朋友参考一下 初学python,看来零零碎碎的格式化文本的方法,总结一下python中格式化文本的方法。使用不当的地欢迎指出谢谢。 1、首先看使用%格式化文本 常见的占位符: 使用方法: 使用的时候不知道写什么的地方直接使用 %s 进行代替,

  • 此代码 导致 Java语言时间总体安排DateTimeParseException:无法分析文本“2020-11-27 01:00”:无法从TemporalAccessor获取OffsetDateTime:{OffsetSeconds=3600},ISO解析为java类型的2020-11-27。时间总体安排已解析 这不管用吗?

  • 问题内容: 如何将以下Objective-C代码转换为Swift代码? 我正在格式化。 问题答案:

  • 问题内容: 我有一系列使用Beautiful Soup解析为单个文本文件的HTML文件。HTML文件的格式设置为使其输出始终为文本文件中的三行,因此输出将类似于: 但这很容易 换句话说,HTML文件的内容在每个文件中并不是真正的标准,但是它们始终会产生三行。 因此,我想知道如果我想从Beautiful Soup生成的文本文件然后将其解析为带有以下内容的列的CSV文件(使用上面的示例),应该从哪里开

  • 问题内容: 我想通过lambda缩进实现以下内容: 多行语句: 单行语句: 当前,Eclipse将自动格式化为以下格式: 多行语句: 单行语句: 而且我发现这真的很混乱,因为该调用直接位于的下面,而且它们之间根本没有空间。如果我可以在缩进的新行中开始lambda,并且希望该调用位于该调用的正上方,则更希望这样做。但是,唯一可以使用标准Java-8 Eclipse Formatter定制的东西是la