当前位置: 首页 > 知识库问答 >
问题:

Solr用于索引和搜索文件夹中的PDF文件

越学义
2023-03-14

我们有一个客户正在使用谷歌搜索设备(GSA)搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。

GSA还不够好,所以现在他们需要替代品。例如,他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。

我已经启动并运行了Solr示例,并添加了一个使用curl的PDF文件,可以搜索该文件,甚至可以搜索垂直文本。我们的客户希望应用程序能够自动检测新文件;如果我能每15分钟或可能每小时重新索引一次数据库,那就太好了。

所以我正在考虑制作一个shell脚本来查找新文件并添加它们或类似的东西。也许在添加文件之前查询Solr,看看它是否已经在Solr中。这有意义吗?

此外,Solr是我们想要做的事情的正确工具吗?

共有1个答案

荀豪
2023-03-14

你说的是“增量索引”。因此,只有新添加或更改的文档才被索引。有关这方面的更多信息,请阅读Solr文档。

 类似资料:
  • 注意: 我只使用“luceneresults”.ascx和.cs。 ----问题更新了,因为我缩小了问题的范围---- 我试图创建一组特定项的索引,用于Lucene搜索。 在web.config中,我指定了一个索引,该索引包含: 完整索引:

  • 问题内容: 我是Lucene的新手,在创建 用于查询文本文件集合的 简单代码时遇到一些问题。 我尝试了此示例,但与新版本的Lucene不兼容。 UDPATE: 这是我的新代码,但是仍然无法使用。 问题答案: Lucene是一个相当大的主题,涉及很多类和方法,通常您必须至少了解一些基本概念才能使用它。如果您需要快速可用的服务,请改用Solr。如果您需要对Lucene的完全控制,请继续阅读。我将介绍一

  • 问题内容: 我正在学习Java,但我不太确定搜索文件的方式。我想构建一个返回文件名的函数(文件名应以开头和结尾) 例如,在文件夹中,我们包含Java源文件和一些文件。例如,文件: 1.txt 2.txt 4.txt start.txt star.txt onstart.txt starton.txt myjava.java 然后,我想获得,& 我一直在寻找,但是找不到找到文件的好方法。有谁知道查找

  • 我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。 很少有工具可以将扫描的pdf文件中的文本作为输出,但我希望可以搜索文本的pdf文件作为输出,而不仅仅是文本。 我在这里搜索了一下,找到了一个解决方案,但我的生产服务器是amazon centos,这个工具的安装只适用于ubuntu,不适用于amazon centos。 如果需要,我准备

  • 问题内容: 我正在寻找将某些字符串搜索到某些文件夹结构中的最快方法。我知道可以使用file_get_contents从文件中获取所有内容,但是我不确定是否很快。也许已经有一些可以快速运行的解决方案。我正在考虑使用scandir获取所有文件,并使用file_get_contents读取其内容,并使用strpos来检查字符串是否存在。 您认为这样做有更好的方法吗? 或者也许试图与grep一起使用php

  • 拉平文本 删除文本信息(不删除文本本身) 向文档添加覆盖。 目前,我不知道如何实现这一点。有没有人知道怎么解决这个问题?