我有(相同的)数据保存为GIF图像文件和PDF文件,我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件!一般来说,这些文件包含一些页眉和页脚文本,以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子,我也开始尝试将表格数据解析为超文本语言标记/XML:
PDF格式
GIF
我用PDFBox解析PDF文件得到了最好的结果,但是(随着菜单每周变化),它仍然不够可靠。我收到的超文本标记语言包括有时更多,有时更少的“段落”(
这就是为什么我想知道是否有其他方法可以做到这一点?
您可以使用Camelot从您的PDF中提取表格并将其导出到超文本标记语言文件。还支持CSV、Excel和JSON。您可以在以下位置查看留档:http://camelot-py.readthedocs.io.与其他开源表格提取工具和库相比,它提供了更准确的结果。这是一个比较。
您可以使用下面的代码片段继续您的任务:
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')
免责声明:我是图书馆的作者。
我已经实现了自己的算法(它的名字是traprange
)来解析pdf文件中的表格数据。
以下是一些示例pdf文件和结果:
访问我在traprange的项目页面
或我在陷阱范围的文章
Tabula是从任意PDF中提取CSV/TSV表的JRuby Web界面上的一个很好的开始。
我已经研究了从PDF进行文本提取/数据提取,并使用了其他一些堆栈溢出答案来寻求帮助,我设置的是Tika通过自定义ContentHandlerDecorator解析pdf,该自定义ContentHandlerDecorator使用sax事件来解析内容。我遇到了一个问题,虽然在 PDF 查看器中查看 pdf 时包含一个按行和列排列的数据表,但该信息似乎没有从 pdf 中提取,或者我没有看到如何使用 t
问题陈述: 我有一个PDF的结构像表格,但行是不可见的。请参阅下面的示例: 上图是我的表格在其中一个PDF页面中的样子。 我的研究 > 如何使用Python从PDF中提取表作为文本?--看了这道题,看了所有的答案。没有帮助 tabula:尝试了tabula API,但它只是提取标题而不是文本,可能是因为没有行。 我可以将整个pdf转换成文本,然后尝试用regex或数据操作来提取它。但这可能是非常乏
问题内容: 我有一堆PDF-可能是数百或数千。它们的格式并非全部相同,但是它们中的任何一个都可以具有一个或多个表,这些表包含我想收集到单独数据库中的有趣信息。 当然,我知道我必须写点东西才能做到这一点。Perl是我的选择-也许是Java。只要是免费的,我就不在乎什么语言(或者免费试用,以确保它适合我的目的)。 我正在查看CAM :: Parse(使用Strawberry Perl),但是我不确定如
以下是从PDF中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import o
问题内容: 是否有任何支持表识别和提取的开源库? 我的意思是: 识别表结构存在 根据内容对表格进行分类 以有用的输出格式(例如JSON / CSV等)从表中提取数据。 我浏览了有关此主题的类似问题,发现以下内容: PDFMiner解决了问题3,但似乎要求用户向PDFMiner指定每个表都存在表结构的地方(如果我错了,请纠正我) pdf-table-extract尝试解决问题1,但根据“待办事项”列
我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?