当前位置: 首页 > 知识库问答 >
问题:

我想从OCR数据中提取表格信息

张财
2023-03-14

我想从OCR数据中提取表格信息,我有原始文本和它的文本。我尝试了pytesseract,但找不到实际的实现。

以下是一张图片:https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

我试过这个:https://github.com/WZBSocialScienceCenter/pdftabextract

这种方法对我根本不起作用。

我想从OCR数据中得到这个表的表格结构,以便进一步处理。

共有1个答案

邢雨华
2023-03-14

pdftab解压缩不是光学字符识别。它需要带有光学字符识别信息的扫描页面,即包含扫描图像和识别文本的“三明治PDF”。您需要像tesseract或ABBYY Finereader这样的软件来实现光学字符识别。

请尝试tesseract,它的实现相对简单。

 类似资料:
  • 我有一个R代码,它从单个. nc4文件中提取每个月的每日值。我有49个netcdf文件。我想使用循环从所有这些文件中提取数据并将它们写入唯一的csv文件中。 我有一个文件的代码,但我需要多个文件的帮助。

  • 我正在尝试从表中提取特定的信息,基于哪个单元格被单击。到目前为止,我已经创建了一个可以在单击时工作的函数。问题是它总是返回第一个单元格行的值。 HTML: 如您所见,我尝试了和来启用提取槽ID。这是单击时调用的函数。 和总是从表的第一行返回值,即使我单击第二行、第三行、第四行等。 我如何声明我想要的信息不仅来自第一个,而且来自我单击的行。提前谢谢!

  • 我的目标是使用基于OCR服务器的解决方案,以键值格式从护照图像中提取数据,以便数据保留在本地。我尝试了Azure表单识别器容器(认知服务表单识别器API V1预览版)。但结果并不令人满意,因为根据训练数据创建的模型无法提取任何键值对。我尝试了各种训练样本数据,也参考了https://docs.microsoft.com/en-us/azure/cognitive-services/form-rec

  • 问题内容: 我正在寻找一种在Linux Shell环境中从HTML获取某些信息的方法。 这是我感兴趣的一点: 我想将它们存储在shell变量中或在从html上面提取的键值对中回显这些变量。范例: 目前,我可以做的是创建一个Java程序,该程序将使用sax解析器或html解析器(例如jsoup)来提取此信息。 但是在这里使用Java似乎很麻烦,因为要在您要执行的“包装器”脚本中包含可运行的jar。

  • 我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?

  • 问题内容: 我想使用JSoup-framework提取此表,以将内容保存在“表”数组中。第一个tr-tag是表头。所有以下内容(不包括在内)均描述了内容。 我已经测试了这一个和其他一些,但是我没有让它们为我工作: 使用JSoup提取HTML表内容 问题答案: 这是一些示例代码,您如何仅选择标题: 你得到… 解析 文件 :(这里是和字符集,请参阅jsoup对铁道部的相关信息文件) 解析 网站 :(不