当前位置：首页 > 面试题库 >

如何搜索多个pdf文件的内容？

仲浩歌

2023-03-14

问题内容：

如何在目录/子目录中搜索PDF文件的内容？我正在寻找一些命令行工具。似乎grep无法搜索PDF文件。

问题答案：

您的发行版应提供一个名为的实用程序pdftotext：

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

要使pdftotext输出到stdout，而不是文件，必须使用“-”。在--with- filename和--label=选项将在grep的输出把文件名。可选--color标志不错，它告诉grep使用终端上的颜色进行输出。

（在Ubuntu中，pdftotext由xpdf-utils或提供poppler-utils。）

这种方法，使用pdftotext和grep，拥有一个优势pdfgrep，如果你想使用GNU的特点grep是pdfgrep不支持。
注意：pdfgrep-1.3.x支持-C打印上下文行的选项。

类似资料：

Postgres全文搜索：如何在多个字段中搜索多个单词？

问题内容：我第一次使用Postgresql，并且试图在我的网站中创建一个搜索引擎。我有这张桌子：然后我为表的每个字段创建了一个索引（这是正确的方法吗？或者我可以为所有字段创建一个索引？）：现在，如果我想在每个索引中搜索一个单词，SQL查询是什么？我尝试了这个，它的工作原理：是否存在更好的方法来做到这一点？我可以搜索多个吗？我的一个朋友提出了一个解决方案，但这是针对MySQL数据库的： P
如何从不可搜索的pdf中检测可搜索的pdf？

我有一堆pdf文件，有些是可搜索的常规pdf文件，有些是不可搜索的文件的扫描版本。我想提取每个pdf的内容。为了提取常规PDF的内容，我使用Apache Tika，为了从不可搜索的PDF中提取内容，我使用tesseract ocr。然而，我需要区分哪个pdf是nornal pdf，哪个不是。有办法吗？
如何在ElasticSearch中搜索多个条件

我正在使用Nest连接到ElasticSearch并执行一些查询。到目前为止，在给定一个通配符查询的情况下，我能够得到我想要的结果，如下所示：但是现在我需要为某个用例的查询添加附加条件。我需要的不仅是通过查询，还需要其他两个匹配的字段：搜索术语"*" field 1="一些字符串" field="一些指南" 我确信在弹性搜索中一定有办法做到这一点（使用Nest），但我还没有找到它。我知道我
将扫描的pdf文件转换为文本搜索的pdf文件

我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。很少有工具可以将扫描的pdf文件中的文本作为输出，但我希望可以搜索文本的pdf文件作为输出，而不仅仅是文本。我在这里搜索了一下，找到了一个解决方案，但我的生产服务器是amazon centos，这个工具的安装只适用于ubuntu，不适用于amazon centos。如果需要，我准备
Solr用于索引和搜索文件夹中的PDF文件

我们有一个客户正在使用谷歌搜索设备（GSA）搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好，所以现在他们需要替代品。例如，他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。我已经启动并运行了Solr示例，并添加了一个使
如何在文件中搜索多行模式？

问题内容：我需要找到所有包含特定字符串模式的文件。我想到的第一个解决方案是使用通过 xargs grep 传递的 find ： __ 但是，如果我需要找到跨越多行的模式，那我就陷入困境，因为香草grep无法找到多行模式。问题答案：因此，我发现 pcregrep 代表 Perl兼容正则表达式GREP 。例如，您需要找到文件中 __name_ 变量后紧跟 __description_ 变量的文

如何搜索多个pdf文件的内容？

相关阅读

相关文章

相关问答

相关工具

相关文档