当前位置: 首页 > 知识库问答 >
问题:

禁用PDF文本搜索pdfBox

艾弘义
2023-03-14
  • 拉平文本
  • 删除文本信息(不删除文本本身)
  • 向文档添加覆盖。

目前,我不知道如何实现这一点。有没有人知道怎么解决这个问题?

共有1个答案

艾骏喆
2023-03-14

非常感谢你在这里的帮助。我想我找到了一个符合要求的方法。(老实说,不是真的干净):

  1. 将矩形添加到地址部分
  2. 将PDF转换为图像
  3. 将图像转换回PDF格式。

当丢失所有文本信息时,用户无法再看到关键信息。由于原因,这只是为了显示(初始的PDF文档没有得到改变),这是可以的现在。

 类似资料:
  • 问题 我试图通过搜索文本来确定文档是什么类型(例如恳求、通信、传票等),最好使用python。所有的PDF都是可搜索的,但是我还没有找到用python解析它并应用脚本搜索它的解决方案(除了先将它转换为文本文件,但是对于n个文档来说,这可能是资源密集型的)。 到目前为止,我所做的 我已经研究了pypdf、pdfminer、adobe pdf文档,以及我能在这里找到的任何问题(尽管似乎没有一个能直接解

  • 我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。 很少有工具可以将扫描的pdf文件中的文本作为输出,但我希望可以搜索文本的pdf文件作为输出,而不仅仅是文本。 我在这里搜索了一下,找到了一个解决方案,但我的生产服务器是amazon centos,这个工具的安装只适用于ubuntu,不适用于amazon centos。 如果需要,我准备

  • 我正在编写一种方法来搜索列表形式的文字文件,搜索用户输入的文字,但如果找到一个字母,程序将返回一个肯定的结果。例如,如果我搜索“f”,当没有单词时,它将返回字典中有一个单词“f”

  • 我们有一个客户正在使用谷歌搜索设备(GSA)搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好,所以现在他们需要替代品。例如,他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。 我已经启动并运行了Solr示例,并添加了一个使

  • 问题内容: 我正在研究Elasticsearch 7.2版,并且正在 改善 应用程序发出的ES调用的性能。 根据我的阅读,如果我们尚未设置“搜索分析器”,则默认情况下将设置标准分析器。 但是,在不需要分析仪的情况下,安装分析仪可能会影响性能。是否将所有字段都用作“关键字”可以防止这种情况? 还是有其他方法可以禁用此“搜索分析器” 附言:对于任何答案,如果您能指出我基于答案的ES官方文档,我将不胜感

  • 使用iTextSharp,我如何确定解析的文本块是否同时加粗和下划线? 详细信息: 我正在尝试用C#解析。pdf文件,特别是针对既加粗又加下划线的文本。使用ITextSharp,我可以从LocationTextExtractionStrategy派生,并从传递给overridden.RenderText方法的ITextSharp.text.pdf.parser.TextRenderInfo对象获取