当前位置: 首页 > 面试题库 >

Lucene的StopFilter中使用的停用词的默认列表是什么?

栾钟展
2023-03-14
问题内容

Lucene具有默认的stopfilter(http://lucene.apache.org/core/4_0_0/analyzers-
common/org/apache/lucene/analysis/core/StopFilter.html
),有人知道列表中的哪些单词吗?


问题答案:

StandardAnalyzer和中设置的默认停用词EnglishAnalyzerStopAnalyzer.ENGLISH_STOP_WORDS_SET,它们是:

"a", "an", "and", "are", "as", "at", "be", "but", "by",
"for", "if", "in", "into", "is", "it",
"no", "not", "of", "on", "or", "such",
"that", "the", "their", "then", "there", "these",
"they", "this", "to", "was", "will", "with"

StopFilter 本身没有定义默认的停用词集。



 类似资料:
  • 在我的网站上,我使用reset.css。它为列表样式添加了以下内容:

  • 问题内容: 在建立的索引中,我有兴趣运行查询,然后(使用构面)返回该查询的带状疱疹。这是我在文字上使用的分析仪: 主要问题在于,对于Lucene 4.4,停止过滤器不再支持消除包含停止词的带状疱疹的参数。相反,我会得到类似的结果。 “红色和黄色” 自然,这极大地扭曲了返回的带状疱疹的数量。有没有一种方法可以在不进行结果后处理的情况下进行Lucene 4.4后的管理? 问题答案: 可能不是最理想的解

  • 我们被要求通过HTTPS(TLS 1.2)调用具有BASIC AUTHENTICATION的特定Rest服务。我使用Spring restTemboard调用此服务。 如果它小于TLSv1.2,我可以使用HTTP客户端强制执行1.2。但我如何检查什么TLS版本正在使用restTemboard?

  • 我正在使用JAXP XSLT API(javax.xml.transform)来转换xml文件。 TransformerFactory的javadoc表示:它使用以下有序查找过程来确定要加载的TransformerFactory实现类: 使用javax。xml。使改变TransformerFactory系统属性 使用JRE目录中的属性文件“lib/jaxp.properties”。此配置文件采用标

  • Windows中使用的默认unicode字符编码是什么?特别是在Windows编程中(Win32和WinRT)。当我在WinAPI中编程时,“char”映射到1字节字符存储,“wchar_t”映射到2字节字符存储。如果UTF-16用4个字节编码所有超过65536的字符,那么Windows如何将这些字符映射为“wchar_t”数据类型?我知道我的问题不够清楚,但我希望你能理解我的一些担忧。非常感谢!

  • 问题内容: 简短问题 连接到PostgreSQL数据库时,从Django过滤器调用返回的列表的默认顺序是什么? 背景 通过我自己也承认,我已经在做应用层一个糟糕的假设,其中返回的列表将是恒定的秩序,对不使用“ORDER_BY”。我要查询的项目列表不是按字母顺序排列的,也不是任何其他故意排列的。据认为,其顺序与添加到数据库中的顺序相同。 这个假设适用于数百个查询,但是当订单在不知不觉中更改时,我的应