当前位置：首页 > 面试题库 >

Solr中的词频

伊锦

2023-03-14

问题内容：

我正在尝试使用solr获得单词的频率。当我给这个查询：

localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml

solr给我类似的频率；

<lst name="facet_counts">
<lst name="facet_queries"/>
<lst name="facet_fields">
<lst name="content">
<int name="word1">24</int>
<int name="word2">12</int>
<int name="word3">8</int>

但是当我数数单词时；我发现word2的实际计数值为13。Solr在字段中将相同的单词计数为1。

例如;

字段文字包括；word2 word5 word7 word9 word2。Solr不返回word2的计数2，而是返回1。它为下面两个句子的word2计数返回1；

word2 word10 word11 word12
word2 word9 word7 word2 word23

因此频率返回错误。我检查了构面字段，但没有找到合适的参数。我该如何解决它，使句子中的单词数相同？

编辑：schema.xml的相关部分：

<fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
    <field name="content" type="text_tr" stored="true" indexed="true" multiValued="true"/>
    <copyField source="content" dest="text"/>
    <field name="text" type="text_tr" stored="false" indexed="true" multiValued="true"/>

问题答案：

如果您要针对的字段是多值字段，则方面中的每个单词都会获得正确的计数

我忘了提一件事：术语向量组件将带您到需要的地方

在查询中， tv.tf 将为您提供每个术语的术语频率，而 tv.fl 告诉solr应在哪个字段上计算频率

注意， 这会使您的索引编制时间比现在慢（又称：您必须尝试一下）

类似资料：

Solr-包含多个单词的同义词

我的文件：syn.txt 一切都很好，除了同义词：我做了一些研究，我发现了以下几点：所以我试图改变我的配置文件，并在索引中添加过滤器，但它不起作用。什么东西有什么想法吗？
Solr中的DoubleMetaphoneFilterFactory

在solr UI中，当我试图搜索sdn_names:abdul~0.50时，它返回0个结果，如果我将查询字符串更改为sdn_names:abdul，则在resultset中得到180条记录。我曾经搜索过解决方案，发现当我们使用doublemetaphonic进行索引时，语音值与原始值不同，计算的两个字符串之间的levenshtein距离非常大，所以结果为0。请为我提供任何链接或重新指挥的解决方案/
是否可以在SOLRJ/Solr中的筛选查询中使用多个单词？

我正在使用SOLRJ（与SOLR 7一起使用），我的索引为文档内容提供了一些名为content_eng、content_ita的字段...它还提供了一个包含文档完整路径的字段（由和处理）。用户能够在content_xyz字段中进行搜索，这要归功于以下几行：final SolrQuery query=new SolrQuery（）；setQuery（searchedText）；query.set（
Solr通过特殊字符分词实现自定义分词器详解

本文向大家介绍Solr通过特殊字符分词实现自定义分词器详解，包括了Solr通过特殊字符分词实现自定义分词器详解的使用技巧和注意事项，需要的朋友参考一下前言我们在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFacto
带Solr 4.1多核的Spring Data Solr

在服务器启动时出现以下异常，我想它应该在某个地方有一个默认构造函数。那么，spring data solr和solr多核实现是否存在局限性，这是我的实现，组织。springframework。豆。工厂BeanCreationException:创建名为“repositoryMembershipIndexService”的bean时出错，该名称在文件[/home/rupanjan/Installa
Solr DataImport中的汉字问题

我在Solr3.4中的中文/日文文本索引有困难。我正在使用DIH导入数据，连接块是此字段的fieldtype defn为 MySQL字符编码详细信息如我使用Java参数启动Solr。输入文本为当我将其导入到Solr中，并使用ID查询该文档时，我看到的文本为谁能告诉我我哪里错了？

相关阅读

Solr和Lucene的区别 Java中的词干库 solr在java中的使用实例代码 Lucene搜索匹配词组中的任何单词详解spring中使用solr的代码实现

相关文章

Solr索引数据 Solr核心（内核）Solr基本命令 Hadoop配置使用Solr Solr添加文档（XML)

相关问答

Solr中的可更新字段无法在linux中的tomcat上运行solr（找不到404/solr）solr和lucene中的索引存储 Spring靴中的redis和solr指标 solr和lucene的区别

相关工具

solr-sql Apache Solr lucene-solr LucidGaze for Solr Spring Data Solr

相关文档

Ruby 中的元编程 Rust 中的异步编程 Java 程序员眼中的 Linux 好用的中文速查表更好的 Java 中英文对照