当前位置：首页 > 面试题库 >

使用Python进行PDF解析-提取格式化和纯文本

上官英哲

2023-03-14

问题内容：

我正在寻找一个PDF库，它将允许我从PDF文档中提取文本。我看过PyPDF，它可以很好地从PDF文档中提取文本。这样做的问题是，如果文档中有表，则表中的文本将与文档其余文本一起在线提取。这可能会引起问题，因为它会生成无用的文本部分，看起来有些乱码（例如，许多数字混在一起）。

我想从PDF文档中提取文本，但 不包括 任何表格和特殊格式。那里有图书馆吗？

问题答案：

您还可以看一下PDFMiner（或者对于旧版本的Python，请参阅PDFMiner和PDFMiner）。

PDFMiner中感兴趣的一个特殊功能是，您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行，单词，字符等之间的间距来执行此操作。因此，也许可以通过对此进行调整来实现所需的功能（取决于文档的可变性）。PDFMiner还可以为您提供文本在页面中的位置，它可以按对象ID和其他内容提取数据。因此，挖掘PDFMiner并发挥创造力吧！

但是您的问题确实不是一个容易解决的问题，因为在PDF中，文本不是连续的，而是由许多绝对位于页面中的小字符组成的。PDF的重点是保持布局完整。它不是面向内容的，而是面向呈现的。

类似资料：

使用jsoup将HTML解析为格式化的纯文本

问题内容：我正在做一个Maven项目，该项目使我可以解析网站中的html数据。我可以使用下面的代码来解析它：到目前为止，我还没有问题。我可以解析html数据。我正在从jsoup中使用select方法，并使用“ div.col- section”检索数据，这意味着我正在使用class为col- section的div元素进行查找。我想在textarea中打印数据。即使网站上的实际数据超过一个段落
python中使用%与.format格式化文本方法解析

本文向大家介绍python中使用%与.format格式化文本方法解析，包括了python中使用%与.format格式化文本方法解析的使用技巧和注意事项，需要的朋友参考一下初学python，看来零零碎碎的格式化文本的方法，总结一下python中格式化文本的方法。使用不当的地欢迎指出谢谢。 1、首先看使用%格式化文本常见的占位符：使用方法：使用的时候不知道写什么的地方直接使用 %s 进行代替，
OffsetDateTime格式化和解析

此代码导致 Java语言时间总体安排DateTimeParseException：无法分析文本“2020-11-27 01:00”：无法从TemporalAccessor获取OffsetDateTime:{OffsetSeconds=3600}，ISO解析为java类型的2020-11-27。时间总体安排已解析这不管用吗？
Swift：使用strftime和localtime进行NSDate格式化

问题内容：如何将以下Objective-C代码转换为Swift代码？我正在格式化。问题答案：
使用Python将纯文本文件解析为CSV文件

问题内容：我有一系列使用Beautiful Soup解析为单个文本文件的HTML文件。HTML文件的格式设置为使其输出始终为文本文件中的三行，因此输出将类似于：但这很容易换句话说，HTML文件的内容在每个文件中并不是真正的标准，但是它们始终会产生三行。因此，我想知道如果我想从Beautiful Soup生成的文本文件然后将其解析为带有以下内容的列的CSV文件（使用上面的示例），应该从哪里开
Java 8：使用换行符和缩进格式格式化lambda

问题内容：我想通过lambda缩进实现以下内容：多行语句：单行语句：当前，Eclipse将自动格式化为以下格式：多行语句：单行语句：而且我发现这真的很混乱，因为该调用直接位于的下面，而且它们之间根本没有空间。如果我可以在缩进的新行中开始lambda，并且希望该调用位于该调用的正上方，则更希望这样做。但是，唯一可以使用标准Java-8 Eclipse Formatter定制的东西是la

相关阅读

Java 8：使用换行符和缩进格式格式化lambda python字符串格式化方式解析使用python读取fortran未格式化的文件使用Python中的PDFMiner从PDF文件提取文本？ngModel格式化程序和解析器

相关文章

Python JSON的解析和创建 Linux日志文件的格式分析教你用Python获取新冠疫情数据并进行可视化 Java国际化(i18n)格式化模式 Perl 格式化输出

相关问答

使用 POI 库进行条件格式化解析 PDF 文档中的表格使用Apache PDFBox解析PDF文件如何使用LocalDateTime解析/格式化日期？（Java8）用Java从Office和PDF文件中提取文本

相关工具

ini格式解析标准TVL格式数据解析进化放置 IOS中解析并显示Gif文件小蜜蜂进化

相关文档

利用 Python 进行数据分析 · 第 2 版格式化字符串漏洞利用 Python 进行机器学习 Python 取证中文教程 Python 和 Pandas 数据分析教程