当前位置: 首页 > 面试题库 >

从PDF python提取/识别表

江育
2023-03-14
问题内容

是否有任何支持表识别和提取的开源库?

我的意思是:

  1. 识别表结构存在
  2. 根据内容对表格进行分类
  3. 以有用的输出格式(例如JSON / CSV等)从表中提取数据

我浏览了有关此主题的类似问题,发现以下内容:

  • PDFMiner解决了问题3,但似乎要求用户向PDFMiner指定每个表都存在表结构的地方(如果我错了,请纠正我)
  • pdf-table-extract尝试解决问题1,但根据“待办事项”列表,当前无法识别由空格分隔的表。这是一个问题,因为我的PDF中的所有表格都由空格分隔!

目前,我认为我将不得不花费大量时间来开发机器学习解决方案以从PDF识别表结构。因此,任何替代方法都将受到欢迎!


问题答案:

您绝对应该看看我的这个答案:

  • 从PDF文件集中提取表格内容

并查看其中包含的所有链接。

Tabula / TabulaPDF是目前可用于PDF抓取的最佳表格提取工具。



 类似资料:
  • 我有不同类型的pdf,其中包含多个内容,如文本,表格等。该表可以存在于pdf的任何位置(顶部,中间,底部)。我只想提取表数据(不。的列,没有。行数 到目前为止我所做的工作:- 1.我使用了iText java API来读取和提取。使用以下代码:- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该

  • 我在用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建培训模型。 我遇到的问题是,当我通过模型运行一个文件(该文件用于训练模型)时,它没有拾取“表”部分。我的意思是,没有“表”节点。 据我所见,它应该能够将其构建为J

  • 我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据,如发票号、发票日期、金额等,但我想使用Azure Form Recognitor从PDF中提取表格数据,但它无法正确读取表格。 我已经标记了我需要的单元格,当表中的行数增加时,它会正确读取列,但是它无法将每行的值彼此分开,并将整列作为单个值返回。 我试图提供

  • 我有一个启用/配置了TTL和DynamoDB Streams的DynamoDB表。 我想实现一个lambda函数,该函数将从DynamoDB流中读取TTL删除的数据,并将其转发给Kinesis Firehose或S3(考虑到成本,我需要决定哪一个更好)。 是否有任何标志/属性有助于识别TTL删除记录已被某些lambda函数读取/处理?例如,我在DynamoDB流中有10条记录,一个lambda函数

  • 我正在尝试读取存储在Firebase数据库中的值。这就是数据库的样子: URL: 现在,从Android端,这就是我尝试检索数据的方式:

  • 我正在使用表单识别器客户端库。NET从一个国家的国民身份证中提取数据。但它似乎无法从卡中获取键值对。我跟着https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/dotnet-sdk辅导的 我发现只有一个键值对,值数组包含所有的标签/文本(键和值)。 我需要用另一种方法从身份证中提取