问题：

禁用PDF文本搜索pdfBox

艾弘义

2023-03-14

拉平文本
删除文本信息（不删除文本本身）
向文档添加覆盖。

目前，我不知道如何实现这一点。有没有人知道怎么解决这个问题？

共有1个答案

艾骏喆

2023-03-14

非常感谢你在这里的帮助。我想我找到了一个符合要求的方法。（老实说，不是真的干净）：

将矩形添加到地址部分
将PDF转换为图像
将图像转换回PDF格式。

当丢失所有文本信息时，用户无法再看到关键信息。由于原因，这只是为了显示（初始的PDF文档没有得到改变），这是可以的现在。

类似资料：

使用Python在PDF中搜索文本？

问题我试图通过搜索文本来确定文档是什么类型（例如恳求、通信、传票等），最好使用python。所有的PDF都是可搜索的，但是我还没有找到用python解析它并应用脚本搜索它的解决方案（除了先将它转换为文本文件，但是对于n个文档来说，这可能是资源密集型的）。到目前为止，我所做的我已经研究了pypdf、pdfminer、adobe pdf文档，以及我能在这里找到的任何问题（尽管似乎没有一个能直接解
将扫描的pdf文件转换为文本搜索的pdf文件

我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。很少有工具可以将扫描的pdf文件中的文本作为输出，但我希望可以搜索文本的pdf文件作为输出，而不仅仅是文本。我在这里搜索了一下，找到了一个解决方案，但我的生产服务器是amazon centos，这个工具的安装只适用于ubuntu，不适用于amazon centos。如果需要，我准备
搜索文本文件

我正在编写一种方法来搜索列表形式的文字文件，搜索用户输入的文字，但如果找到一个字母，程序将返回一个肯定的结果。例如，如果我搜索“f”，当没有单词时，它将返回字典中有一个单词“f”
Solr用于索引和搜索文件夹中的PDF文件

我们有一个客户正在使用谷歌搜索设备（GSA）搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好，所以现在他们需要替代品。例如，他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。我已经启动并运行了Solr示例，并添加了一个使
禁用Elasticsearch搜索分析器

问题内容：我正在研究Elasticsearch 7.2版，并且正在改善应用程序发出的ES调用的性能。根据我的阅读，如果我们尚未设置“搜索分析器”，则默认情况下将设置标准分析器。但是，在不需要分析仪的情况下，安装分析仪可能会影响性能。是否将所有字段都用作“关键字”可以防止这种情况？还是有其他方法可以禁用此“搜索分析器” 附言：对于任何答案，如果您能指出我基于答案的ES官方文档，我将不胜感
在PDF中搜索带下划线和粗体的文本

使用iTextSharp，我如何确定解析的文本块是否同时加粗和下划线？详细信息: 我正在尝试用C#解析。pdf文件，特别是针对既加粗又加下划线的文本。使用ITextSharp，我可以从LocationTextExtractionStrategy派生，并从传递给overridden.RenderText方法的ITextSharp.text.pdf.parser.TextRenderInfo对象获取

禁用PDF文本搜索pdfBox

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档