任何java库?如何使搜索文本使用任何java库?开源或付费。
如何使用PDFBox将OCR应用于pdf?如何使用pdfbox以编程方式搜索pdf文本我搜索了很多。没有找到任何解决办法。任何人都可以粘贴OCR PDFBox的代码。
您可以使用PDFBox从PDF文件中提取图像,然后使用您选择的OCR系统(例如Tesseract)获取文本。或者,如果PDF是混合文本和图像,则可以使用Ghostscript创建每个PDF页面的图像,然后运行OCR。
如果你需要一个可搜索的PDF文件,先写下文本,然后在文本上方绘制图像,构建一个新的PDF。文本可以搜索,但你只能看到图像。
请注意,像Tesseract和Google Vision这样的OCR引擎将返回每个单词的位置信息,因此您将能够将文本放置在正确的位置。
任何java库?如何使搜索文本使用任何java库?开源或付费。
可以使用Gnostice XtremeDocumentStudio for Java实现这一点。有关更多详细信息,请点击下面的链接。
http://www.gnostice.com/nl_article.asp?id=289
仅供参考,在本文中,我们演示了如何将扫描图像转换为可搜索的PDF。事实上,输入可以是任何扫描的文档(图像、PDF或DOCX)。
免责声明:我为Gnostice工作。
试试ApachePDFBox。
提取文本:Textextraction。
我一直在尝试使用OCR(光学字符识别)隐蔽扫描的不可选择PDF(JPEG)。 要转换的扫描PDF文档 但是,我得到一个错误作为附件。 请调查此事,并建议我得到预期的结果。 附上要转换的文档和我面临的错误。
问题内容: 我目前正在从事一个涉及Android光学字符识别的项目,确实需要一些在该领域有经验的人的指导。 有人告诉我首先要使用Android设置OpenCV(使用Android 设置OpenCv)并从那里开始。从那时起,我建立了OpenCV,并使其具有所有示例(OpenCV android示例 )和教程。 我的问题是我无法从这里找到明确的方向,我在这里找到了一个相关问题,其答案指向了教程,但是我
问题 我试图通过搜索文本来确定文档是什么类型(例如恳求、通信、传票等),最好使用python。所有的PDF都是可搜索的,但是我还没有找到用python解析它并应用脚本搜索它的解决方案(除了先将它转换为文本文件,但是对于n个文档来说,这可能是资源密集型的)。 到目前为止,我所做的 我已经研究了pypdf、pdfminer、adobe pdf文档,以及我能在这里找到的任何问题(尽管似乎没有一个能直接解
拉平文本 删除文本信息(不删除文本本身) 向文档添加覆盖。 目前,我不知道如何实现这一点。有没有人知道怎么解决这个问题?
我正在使用pdf三明治和tesseract OCR的alphaco-simic-ocr。我想从插入到文件夹的文档中获取文本,然后在新的工作流中使用文本和pdf文件。 我已经设法进行光学字符识别提取,以及如何使用插入到目录的文件启动工作流,但是我无法从文件中获取文本并在工作流中使用它。 有可能这样做吗? 从哪里开始实现该功能? 你好,拉法
问题内容: 我有一个带Foos的MySQL表。每个Foo都有一个数字非唯一代码和一个名称。现在,我需要查找具有某些特定代码之一的Foo是否恰好具有以给定字符串开头的名称。在普通的SQL中,这很简单: 但是我现在如何在春季正确地做到这一点?不需要’like’运算符,我可以这样做: 然而,与“喜欢”似乎没有任何工作:,或使用占位符代替命名参数时。 我可能会残酷地输入 但是显然,如果Spring可以正确