如何使用Java库搜索现有的PDF文本？用光学字符识别

欧阳俊捷

2023-03-14

任何java库？如何使搜索文本使用任何java库？开源或付费。

如何使用PDFBox将OCR应用于pdf？如何使用pdfbox以编程方式搜索pdf文本我搜索了很多。没有找到任何解决办法。任何人都可以粘贴OCR PDFBox的代码。

共有3个答案

姬慎之

2023-03-14

您可以使用PDFBox从PDF文件中提取图像，然后使用您选择的OCR系统（例如Tesseract）获取文本。或者，如果PDF是混合文本和图像，则可以使用Ghostscript创建每个PDF页面的图像，然后运行OCR。

如果你需要一个可搜索的PDF文件，先写下文本，然后在文本上方绘制图像，构建一个新的PDF。文本可以搜索，但你只能看到图像。

请注意，像Tesseract和Google Vision这样的OCR引擎将返回每个单词的位置信息，因此您将能够将文本放置在正确的位置。

岳华灿

2023-03-14

任何java库？如何使搜索文本使用任何java库？开源或付费。

可以使用Gnostice XtremeDocumentStudio for Java实现这一点。有关更多详细信息，请点击下面的链接。

http://www.gnostice.com/nl_article.asp?id=289

仅供参考，在本文中，我们演示了如何将扫描图像转换为可搜索的PDF。事实上，输入可以是任何扫描的文档（图像、PDF或DOCX）。

免责声明：我为Gnostice工作。

养昊天

2023-03-14

试试ApachePDFBox。

提取文本：Textextraction。

类似资料：

使用OCR（光学字符识别）读取扫描PDF（JPEG）的内容

我一直在尝试使用OCR（光学字符识别）隐蔽扫描的不可选择PDF（JPEG）。要转换的扫描PDF文档但是，我得到一个错误作为附件。请调查此事，并建议我得到预期的结果。附上要转换的文档和我面临的错误。
具有OpenCV的光学字符识别Android

问题内容：我目前正在从事一个涉及Android光学字符识别的项目，确实需要一些在该领域有经验的人的指导。有人告诉我首先要使用Android设置OpenCV（使用Android 设置OpenCv）并从那里开始。从那时起，我建立了OpenCV，并使其具有所有示例（OpenCV android示例）和教程。我的问题是我无法从这里找到明确的方向，我在这里找到了一个相关问题，其答案指向了教程，但是我
使用Python在PDF中搜索文本？

问题我试图通过搜索文本来确定文档是什么类型（例如恳求、通信、传票等），最好使用python。所有的PDF都是可搜索的，但是我还没有找到用python解析它并应用脚本搜索它的解决方案（除了先将它转换为文本文件，但是对于n个文档来说，这可能是资源密集型的）。到目前为止，我所做的我已经研究了pypdf、pdfminer、adobe pdf文档，以及我能在这里找到的任何问题（尽管似乎没有一个能直接解
禁用PDF文本搜索pdfBox

拉平文本删除文本信息（不删除文本本身）向文档添加覆盖。目前，我不知道如何实现这一点。有没有人知道怎么解决这个问题？
露天简单光学字符识别。从PDF文件中提取文本并使用它启动工作流

我正在使用pdf三明治和tesseract OCR的alphaco-simic-ocr。我想从插入到文件夹的文档中获取文本，然后在新的工作流中使用文本和pdf文件。我已经设法进行光学字符识别提取，以及如何使用插入到目录的文件启动工作流，但是我无法从文件中获取文本并在工作流中使用它。有可能这样做吗？从哪里开始实现该功能？你好，拉法
如何使用Java Spring Framework搜索字符串LIKE'something％'？

问题内容：我有一个带Foos的MySQL表。每个Foo都有一个数字非唯一代码和一个名称。现在，我需要查找具有某些特定代码之一的Foo是否恰好具有以给定字符串开头的名称。在普通的SQL中，这很简单：但是我现在如何在春季正确地做到这一点？不需要’like’运算符，我可以这样做：然而，与“喜欢”似乎没有任何工作：，或使用占位符代替命名参数时。我可能会残酷地输入但是显然，如果Spring可以正确

如何使用Java库搜索现有的PDF文本？用光学字符识别

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档