当前位置: 首页 > 知识库问答 >
问题:

PyLucene的自定义停止词

杜嘉慕
2023-03-14
result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)
>>> StopAnalyzer.ENGLISH_STOP_WORDS_SET

<Set: [but, be, with, such, then, for, no, will, not, are, and, their, if, this, on, into, a, or, there, in, that, they, was, is, it, an, the, as, at, these, by, to, of]>
>>> Set()

NotImplementedError: ('instantiating java class', <type 'Set'>)

其他地方建议使用PyLucene附带的Pythonset,但事实证明这不是set的实例,不能与StopFilter一起使用。

如何给stopfilter一组新的停止词?

共有1个答案

邵城
2023-03-14

我通过pylucene开发列表上的这条线程在写这个问题的中途发现了这个问题的答案:

http://mail-archives.apache.org/mod_mbox/lucene-pylucene-dev/201202.mbox/thread

您可以使用自定义列表定义stopfilter,如下所示:

mystops = HashSet(Arrays.asList(['a','b','c']))
result = StopFilter(True, result, mystops)
 类似资料:
  • PyLucene 是 Python 语言用来访问 Lucene 索引库的封装。通过 PyLucene 可以用来创建索引和对索引进行搜索。PyLucene 使用 JCC 构建。 示例说明: Java 代码: for (int i = 0; i < hits.length(); i++) {     Document doc = hits.doc(i);     System.out.println(

  • 我有一个带有片段页面管理器的视图页面管理器,我的应用程序以前只使用了两个片段(不同类型的)而没有问题。 不过,我刚刚添加了第三个片段,现在当我远离它们时,我的适配器/视图寻呼机似乎正在破坏我的片段。例如,如果我在第1页,当我靠近它时,第3页会被销毁并重新创建。如果我在第3页,第1页也会发生同样的事情。 这会导致我的应用出现很多问题。这些碎片根本不是RAM,所以我如何阻止这种情况发生?

  • 我有一个简单的功能来计算谷歌表格中的颜色。它在脚本编辑器内调用时工作良好,但在工作表中不工作......我导入功能到工作表,它仍然加载和加载... 是不是我做错了什么?这是我第一次尝试自定义函数。我从单元格调用它的方式: 我的职能:

  • 我试图从http://searchhub.org/2010/04/18/refresh-getting-starting-with-payloads/using Pylucene实现java的python版本。我的分析器正在对DelimitedTokenFilter的init调用生成Lucene.InvalidArgSerror 课程在下面,任何帮助都是非常感谢的。用Pylucene3.6构建中的

  • 问题内容: 我有一个按钮“ addCashier”,它正在创建一个名为“ Cashier”的线程,现在该线程只是每4秒简单地生成一个订单,该线程的run()方法中有while(true)循环。那里一切都很好,但是现在我想添加一个按钮来模拟收银员注销。我在我的while循环onDuty和一个公共函数logOff()中添加了一个布尔变量,该函数将onDuty布尔值设置为false,以使我退出运行的wh

  • 我有一个奇怪的问题,我希望这是因为我错过了一些明显的。。。 我们的Wordpress安装已经升级到3.8.1最近。我们在网站的目录中使用WordPress作为我们新闻项目的一部分。我们循环浏览我们网站其他部分的帖子,以显示最新消息等 我们启用了特色图片,并使用以下代码将特色图片显示在wordpress/新闻主页上: 这工作正常,输出150px×150px的特征图像。 我们还希望在站点其他页面上循环