当前位置: 首页 > 面试题库 >

Solr中的词频

伊锦
2023-03-14
问题内容

我正在尝试使用solr获得单词的频率。当我给这个查询:

localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml

solr给我类似的频率;

<lst name="facet_counts">
<lst name="facet_queries"/>
<lst name="facet_fields">
<lst name="content">
<int name="word1">24</int>
<int name="word2">12</int>
<int name="word3">8</int>

但是当我数数单词时;我发现word2的实际计数值为13。Solr在字段中将相同的单词计数为1。

例如;

字段文字包括;word2 word5 word7 word9 word2。Solr不返回word2的计数2,而是返回1。它为下面两个句子的word2计数返回1;

word2 word10 word11 word12
word2 word9 word7 word2 word23

因此频率返回错误。我检查了构面字段,但没有找到合适的参数。我该如何解决它,使句子中的单词数相同?

编辑:schema.xml的相关部分:

<fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
    <field name="content" type="text_tr" stored="true" indexed="true" multiValued="true"/>
    <copyField source="content" dest="text"/>
    <field name="text" type="text_tr" stored="false" indexed="true" multiValued="true"/>

问题答案:

如果您要针对的字段是多值字段,则方面中的每个单词都会获得正确的计数

我忘了提一件事:术语向量组件将带您到需要的地方

在查询中, tv.tf 将为您提供每个术语的术语频率,而 tv.fl 告诉solr应在哪个字段上计算频率

注意, 这会使您的索引编制时间比现在慢(又称:您必须尝试一下)



 类似资料:
  • 我的文件:syn.txt 一切都很好,除了同义词: 我做了一些研究,我发现了以下几点: 所以我试图改变我的配置文件,并在索引中添加过滤器,但它不起作用。 什么东西有什么想法吗?

  • 在solr UI中,当我试图搜索sdn_names:abdul~0.50时,它返回0个结果,如果我将查询字符串更改为sdn_names:abdul,则在resultset中得到180条记录。我曾经搜索过解决方案,发现当我们使用doublemetaphonic进行索引时,语音值与原始值不同,计算的两个字符串之间的levenshtein距离非常大,所以结果为0。请为我提供任何链接或重新指挥的解决方案/

  • 我正在使用SOLRJ(与SOLR 7一起使用),我的索引为文档内容提供了一些名为content_eng、content_ita的字段...它还提供了一个包含文档完整路径的字段(由和处理)。 用户能够在content_xyz字段中进行搜索,这要归功于以下几行:final SolrQuery query=new SolrQuery();setQuery(searchedText);query.set(

  • 本文向大家介绍Solr通过特殊字符分词实现自定义分词器详解,包括了Solr通过特殊字符分词实现自定义分词器详解的使用技巧和注意事项,需要的朋友参考一下 前言 我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFacto

  • 在服务器启动时出现以下异常,我想它应该在某个地方有一个默认构造函数。那么,spring data solr和solr多核实现是否存在局限性,这是我的实现, 组织。springframework。豆。工厂BeanCreationException:创建名为“repositoryMembershipIndexService”的bean时出错,该名称在文件[/home/rupanjan/Installa

  • 我在Solr3.4中的中文/日文文本索引有困难。我正在使用DIH导入数据,连接块是 此字段的fieldtype defn为 MySQL字符编码详细信息如 我使用Java参数启动Solr。 输入文本为当我将其导入到Solr中,并使用ID查询该文档时,我看到的文本为 谁能告诉我我哪里错了?