当前位置: 首页 > 面试题库 >

具有词nGrams的多词术语向量?

贲绪
2023-03-14
问题内容

我的目标是为每个文档建立一个索引,将其按单词ngram(uni,bi和tri)分解,然后捕获所有这些单词ngram的术语向量分析。Elasticsearch有可能吗?

例如,对于包含“红色汽车行驶”的文档字段。我将能够获得信息:

red - 1 instance
car - 1 instance
drives - 1 instance
red car - 1 instance
car drives - 1 instance
red car drives - 1 instance

提前致谢!


问题答案:

假设您已经了解术语向量API,则可以在索引时间应用带状令牌过滤器,以将这些术语彼此独立地添加到令牌流中。

设置min_shingle_size为1(而不是默认值2),并max_shingle_size至少设置为3(而不是默认值2)

并且基于您将“
the”排除在可能的条件之外的事实,您应在应用带状疱疹过滤器之前使用停用词过滤器。

分析仪设置如下所示:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "evolutionAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle"
          ]
        }
      },
      "filter": {
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_",
            "enable_position_increments":"false"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "1",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

您可以使用_analyzeapi端点测试分析器。



 类似资料:
  • 问题内容: 我正在尝试使用Apache Lucene创建可搜索的电话/本地业务目录。 我有街道名称,公司名称,电话号码等字段。我遇到的问题是,当我尝试按街道名称中包含多个单词(例如“新月”)的街道进行搜索时,没有返回结果。但是,如果我尝试仅用一个词(例如“新月”)进行搜索,那么我会得到所有想要的结果。 我正在使用以下索引数据: 我的搜索是这样的: 我尝试过将通配符查询替换为短语查询,首先将整个字符

  • 使用正则表达式匹配表达式 为什么这两个示例匹配如下(突出显示): c# < code>a #b #c #d 具体来说,为什么第一个字符串不匹配包含最后一个#之前的所有内容? 由于单词边界(\b)是零宽度匹配,可以在单词字符(\w)和非单词字符(\ w)之间匹配,或者在单词字符和字符串的开始或结束之间匹配,我不确定以非单词字符结束表达式会如何影响匹配。

  • 问题内容: 考虑以下代码段: 控制台输出: 可选([1、4、9、16、25] [75、43、103、87、12] 为什么字典中有“ Optional”? 问题答案: 为了安全起见,Swift字典正在返回可选内容。如果您尝试访问一个不存在的密钥,那将使您无用。 您还可以使用下标语法从字典中检索特定键的值。因为可以请求不存在任何值的键,所以字典的下标返回字典值类型的可选值。如果字典包含所请求键的值,则

  • 神经语言模型 神经语言模型 什么是词向量/词嵌入 词向量(word embedding)是一个固定长度的实值向量 词向量是神经语言模型的副产品。 词向量是针对“词”提出的。事实上,也可以针对更细或更粗的粒度来进行推广——比如字向量、句向量、文档向量等 词向量的理解 TODO word2vec 中的数学原理详解(三)背景知识 - CSDN博客 在 NLP 任务中,因为机器无法直接理解自然语言,所以首

  • 我一直在用spaCy查找最常用的名词和noun_phrases 在寻找单个名词时,我可以成功地去掉标点符号并停止单词 然而,使用noun_chunks来确定短语会导致属性错误 spacy.tokens.span.Span对象没有属性 我理解的性质的消息但我不能为我的生活得到语法正确的地方存在的停止字在一个emmatiated字符串将排除从被附加到noun_phrases列表 不删除停止字的输出 [

  • 问题内容: 如何使用spacy从文本中提取名词短语? 我指的不是语音标签的一部分。在文档中,我找不到有关名词短语或常规分析树的任何内容。 问题答案: 如果要使用基本NP,即没有协调,介词短语或相对从句的NP,则可以在Doc和Span对象上使用noun_chunks迭代器: 如果您需要其他内容,最好的方法是遍历句子中的单词并考虑句法上下文,以确定该单词是否支配您想要的短语类型。如果是这样,则产生其子