当前位置: 首页 > 面试题库 >

如何搜索多个pdf文件的内容?

仲浩歌
2023-03-14
问题内容

如何在目录/子目录中搜索PDF文件的内容?我正在寻找一些命令行工具。似乎grep无法搜索PDF文件。


问题答案:

您的发行版应提供一个名为的实用程序pdftotext

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

要使pdftotext输出到stdout,而不是文件,必须使用“-”。在--with- filename--label=选项将在grep的输出把文件名。可选--color标志不错,它告诉grep使用终端上的颜色进行输出。

(在Ubuntu中,pdftotextxpdf-utils或提供poppler-utils。)

这种方法,使用pdftotextgrep,拥有一个优势pdfgrep,如果你想使用GNU的特点greppdfgrep不支持。
注意 :pdfgrep-1.3.x支持-C打印上下文行的选项。



 类似资料:
  • 问题内容: 我第一次使用Postgresql,并且试图在我的网站中创建一个搜索引擎。我有这张桌子: 然后我为表的每个字段创建了一个索引(这是正确的方法吗?或者我可以为所有字段创建一个索引?): 现在,如果我想在每个索引中搜索一个单词,SQL查询是什么? 我尝试了这个,它的工作原理: 是否存在更好的方法来做到这一点?我可以搜索多个吗?我的一个朋友提出了一个解决方案,但这是针对MySQL数据库的: P

  • 我有一堆pdf文件,有些是可搜索的常规pdf文件,有些是不可搜索的文件的扫描版本。我想提取每个pdf的内容。为了提取常规PDF的内容,我使用Apache Tika,为了从不可搜索的PDF中提取内容,我使用tesseract ocr。然而,我需要区分哪个pdf是nornal pdf,哪个不是。有办法吗?

  • 我正在使用Nest连接到ElasticSearch并执行一些查询。到目前为止,在给定一个通配符查询的情况下,我能够得到我想要的结果,如下所示: 但是现在我需要为某个用例的查询添加附加条件。 我需要的不仅是通过查询,还需要其他两个匹配的字段: 搜索术语"*" field 1="一些字符串" field="一些指南" 我确信在弹性搜索中一定有办法做到这一点(使用Nest),但我还没有找到它。 我知道我

  • 我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。 很少有工具可以将扫描的pdf文件中的文本作为输出,但我希望可以搜索文本的pdf文件作为输出,而不仅仅是文本。 我在这里搜索了一下,找到了一个解决方案,但我的生产服务器是amazon centos,这个工具的安装只适用于ubuntu,不适用于amazon centos。 如果需要,我准备

  • 我们有一个客户正在使用谷歌搜索设备(GSA)搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好,所以现在他们需要替代品。例如,他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。 我已经启动并运行了Solr示例,并添加了一个使

  • 问题内容: 我需要找到所有包含特定字符串模式的文件。我想到的第一个解决方案是使用通过 xargs grep 传递的 find : __ 但是,如果我需要找到跨越多行的模式,那我就陷入困境,因为香草grep无法找到多行模式。 问题答案: 因此,我发现 pcregrep 代表 Perl兼容正则表达式GREP 。 例如,您需要找到文件中 __name_ 变量后紧跟 __description_ 变量的文