当前位置: 首页 > 面试题库 >

小文本有效搜索

郤浩慨
2023-03-14
问题内容

我有很多小文本(说大约500个单词)和两个数据库,每个数据库大约有10.000个条目(关键字)。

现在,我想处理每个文本,并找出文本中包含哪些关键字(保存在2个数据库中的关键字)。

你们中的某人是否有有效地做到这一点的好方法?

我想对每个文本进行处理并对其进行索引(也许使用lucene),然后再针对它搜索数据库,但是我真的不知道lucene是否是正确的工具。


问题答案:

Lucene正是完成此任务的正确工具。

实现目标的一种方法是使用RAMDirectory为每个文本建立索引,然后使用IndexReader从索引中获取TermEnum。现在,您可以将术语与数据库中的关键字进行匹配。

另一种方法是将每个文本索引为lucene文档,然后遍历您的关键字并获得当前术语的termDocs =>包含当前术语/关键字的所有文本。



 类似资料:
  • 我试图实现与linq文本搜索。我有一个用电子邮件数据填充的消息表。我想能够在消息体中搜索。然而,电子邮件正文很长,我想只显示搜索文本的一小部分,例如,如果我搜索: 奥特 在以下案文中: 知识产权是一种权利,是一种精英的权利,是劳动和财富的暂时性权利。但是,在最低限度上,我们需要一个实验室来进行日常工作。两人或两人在一个无教区的房间里互相指责。除偶尔因疏忽而死亡外,不得因疏忽而导致动物死亡。 结果应

  • 我正在编写一种方法来搜索列表形式的文字文件,搜索用户输入的文字,但如果找到一个字母,程序将返回一个肯定的结果。例如,如果我搜索“f”,当没有单词时,它将返回字典中有一个单词“f”

  • 问题内容: 我正在为我的Android应用程序使用Firebase数据库。我在应用程序中实现了搜索功能。在我的数据库中,仅当我以大写字母“ A”开始搜索时,才会显示每个以“ A”开头的标题。当我输入小写字母“ a”时,未显示任何结果。我也想启用搜索小写字母的变体形式。请帮帮我。谢谢。这是我的搜索代码。 问题答案: 有两种方法可以解决此问题。第一个方法是使用方法甚至从一开始就将项目名称以小写形式存储

  • 问题内容: 在谷歌搜索时,我发现使用会很慢。 也有可用的方法。 Java中是否有一种有效的方法来获取文件大小? 问题答案: 好吧,我尝试使用下面的代码对其进行度量: 对于运行次数= 1和迭代次数= 1,URL方法大多数时候是最快的,其次是频道。我以大约十次的新鲜暂停运行。因此对于一次访问,使用URL是我想到的最快方法: 如果运行次数= 5,迭代次数= 50,则绘制的图片会有所不同。 文件必须缓存对

  • 最近我接受了一次采访,他们问我一个“搜索”问题。问题是: 假设存在一个(正)整数数组,其中每个元素与其相邻元素相比要么是,要么是。 例: 现在搜索并返回其位置。 我给出了这样的答案: 将这些值存储在临时数组中,对它们进行排序,然后应用二进制搜索。 如果找到元素,则返回其在临时数组中的位置 (如果数字出现两次,则返回第一次出现的数字) 但是,他们似乎对这个答案不满意。 正确的答案是什么?

  • 我在我的本体论中包含了一个特定的,类型为,因为我正在研究这个网站,它提供了该格式的假定可接受的文字值的示例http://www.datypic.com/sc/xsd11/t-xsd_dateTimeStamp.html 我复制粘贴这两个文字值建议到我的数据属性分别: 但不幸的是,隐士和小球推理者都抱怨那里的矛盾。有人能给我解释一下为什么这是错误的,并提供一个有效的文本值示例,让推理机通过吗? 我使