问题：

我想从OCR数据中提取表格信息

张财

2023-03-14

我想从OCR数据中提取表格信息，我有原始文本和它的文本。我尝试了pytesseract，但找不到实际的实现。

以下是一张图片：https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

我试过这个：https://github.com/WZBSocialScienceCenter/pdftabextract

这种方法对我根本不起作用。

我想从OCR数据中得到这个表的表格结构，以便进一步处理。

共有1个答案

邢雨华

2023-03-14

pdftab解压缩不是光学字符识别。它需要带有光学字符识别信息的扫描页面，即包含扫描图像和识别文本的“三明治PDF”。您需要像tesseract或ABBYY Finereader这样的软件来实现光学字符识别。

请尝试tesseract，它的实现相对简单。

类似资料：

我想从多个netcdf文件中提取数据

我有一个R代码，它从单个. nc4文件中提取每个月的每日值。我有49个netcdf文件。我想使用循环从所有这些文件中提取数据并将它们写入唯一的csv文件中。我有一个文件的代码，但我需要多个文件的帮助。
用JavaScript从表单元格中提取数据

我正在尝试从表中提取特定的信息，基于哪个单元格被单击。到目前为止，我已经创建了一个可以在单击时工作的函数。问题是它总是返回第一个单元格行的值。 HTML：如您所见，我尝试了和来启用提取槽ID。这是单击时调用的函数。和总是从表的第一行返回值，即使我单击第二行、第三行、第四行等。我如何声明我想要的信息不仅来自第一个，而且来自我单击的行。提前谢谢！
使用OCR以键值格式从护照图像中提取数据

我的目标是使用基于OCR服务器的解决方案，以键值格式从护照图像中提取数据，以便数据保留在本地。我尝试了Azure表单识别器容器（认知服务表单识别器API V1预览版）。但结果并不令人满意，因为根据训练数据创建的模型无法提取任何键值对。我尝试了各种训练样本数据，也参考了https://docs.microsoft.com/en-us/azure/cognitive-services/form-rec
从HTML表中提取数据

问题内容：我正在寻找一种在Linux Shell环境中从HTML获取某些信息的方法。这是我感兴趣的一点：我想将它们存储在shell变量中或在从html上面提取的键值对中回显这些变量。范例：目前，我可以做的是创建一个Java程序，该程序将使用sax解析器或html解析器（例如jsoup）来提取此信息。但是在这里使用Java似乎很麻烦，因为要在您要执行的“包装器”脚本中包含可运行的jar。
如何在Java中从PDF文件中提取表格数据

我有关于从PDF文件中提取数据的查询。我有一个PDF文件，其中包含多个可用的数据表。我想从需要的表内容中提取数据。如何从 PDF 文件中提取表格数据？如何使用 iText/PDFBox 执行此操作？
使用JSoup从表中提取数据

问题内容：我想使用JSoup-framework提取此表，以将内容保存在“表”数组中。第一个tr-tag是表头。所有以下内容（不包括在内）均描述了内容。我已经测试了这一个和其他一些，但是我没有让它们为我工作：使用JSoup提取HTML表内容问题答案：这是一些示例代码，您如何仅选择标题：你得到… 解析文件：（这里是和字符集，请参阅jsoup对铁道部的相关信息文件）解析网站：（不

我想从OCR数据中提取表格信息

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档