当前位置: 首页 > 知识库问答 >
问题:

露天简单光学字符识别。从PDF文件中提取文本并使用它启动工作流

张唯
2023-03-14


我正在使用pdf三明治和tesseract OCR的alphaco-simic-ocr。我想从插入到文件夹的文档中获取文本,然后在新的工作流中使用文本和pdf文件。

我已经设法进行光学字符识别提取,以及如何使用插入到目录的文件启动工作流,但是我无法从文件中获取文本并在工作流中使用它。
有可能这样做吗?
从哪里开始实现该功能

你好,拉法

共有1个答案

公西飞鸾
2023-03-14

你不需要任何扩展。Alfresco已经集成了PDfBox,可以为您做到这一点。之后,它取决于你的PDF文件,是包含图像的PDF文件(扫描过的文档),还是已经包含文本的PDF文件。如果您想对一些图像进行OCR,还可以使用以下模块:https://github.com/bchevallereau/alfresco-tesseract

当你知道你想要转换什么时,你可以看看这个页面,在那里你有一个关于如何调用变压器的javascript示例:http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html如果你需要,你也可以在Java中这样做。

 类似资料:
  • 任何java库?如何使搜索文本使用任何java库?开源或付费。 如何使用PDFBox将OCR应用于pdf?如何使用pdfbox以编程方式搜索pdf文本我搜索了很多。没有找到任何解决办法。任何人都可以粘贴OCR PDFBox的代码。

  • 问题内容: 我需要使用iText从pdf文件中提取文本。 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中的列作为结果合并(即同一行中两列的文本) 这是代码: 你能帮我完成这个任务吗? 问题答案: 我是iText文本提取子系统的作者。您需要做的是开发自己的文本提取策略(如果您看一下如何实现的话,就会发现您可以提供可插拔的策略)。 您将如何确定列的开始和停止位置完全取决于您-

  • 我一直在尝试使用OCR(光学字符识别)隐蔽扫描的不可选择PDF(JPEG)。 要转换的扫描PDF文档 但是,我得到一个错误作为附件。 请调查此事,并建议我得到预期的结果。 附上要转换的文档和我面临的错误。

  • 问题内容: 我正在寻找有关如何使用带有Python的PDFMiner从PDF文件提取文本的文档 或 示例。 看来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现的那些使从PDF文件提取文本的任务更加容易的库正在使用旧的PDFMiner语法,因此我不确定如何执行此操作。 照原样,我只是在查看源代码,以查看是否可以解决。 问题答案: 这是一个使用当前版

  • 问题内容: 我正在尝试使用提取此 PDF文件中包含的文本。 我正在使用PyPDF2模块,并具有以下脚本: 运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同: 如何提取PDF文档中的文本? 问题答案: 要从PDF提取文本,请使用以下代码

  • 我有一个列表。pdf,ppt,pptx,xls,xlsx,doc和。docx文件,现在想在这些文件中查找电子邮件地址。我的问题是如何从这些文件中智能地提取计划文本。目前我正在使用Apache POI,我对每种类型的文件都有一个单一的方法,是否有一个更短、更优雅的位置来做这件事?也许还可以处理。ODT、.ODP、.ODS文件?如何从。pdf,ppt,pptx,xls,xlsx,doc和.docx文件