当前位置：首页 > 面试题库 >

具有词nGrams的多词术语向量？

贲绪

2023-03-14

问题内容：

我的目标是为每个文档建立一个索引，将其按单词ngram（uni，bi和tri）分解，然后捕获所有这些单词ngram的术语向量分析。Elasticsearch有可能吗？

例如，对于包含“红色汽车行驶”的文档字段。我将能够获得信息：

red - 1 instance
car - 1 instance
drives - 1 instance
red car - 1 instance
car drives - 1 instance
red car drives - 1 instance

提前致谢！

问题答案：

假设您已经了解术语向量API，则可以在索引时间应用带状令牌过滤器，以将这些术语彼此独立地添加到令牌流中。

设置min_shingle_size为1（而不是默认值2），并max_shingle_size至少设置为3（而不是默认值2）

并且基于您将“
the”排除在可能的条件之外的事实，您应在应用带状疱疹过滤器之前使用停用词过滤器。

分析仪设置如下所示：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "evolutionAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle"
          ]
        }
      },
      "filter": {
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_",
            "enable_position_increments":"false"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "1",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

您可以使用_analyzeapi端点测试分析器。

类似资料：

Lucene：多词短语作为搜索词

问题内容：我正在尝试使用Apache Lucene创建可搜索的电话/本地业务目录。我有街道名称，公司名称，电话号码等字段。我遇到的问题是，当我尝试按街道名称中包含多个单词（例如“新月”）的街道进行搜索时，没有返回结果。但是，如果我尝试仅用一个词（例如“新月”）进行搜索，那么我会得到所有想要的结果。我正在使用以下索引数据：我的搜索是这样的：我尝试过将通配符查询替换为短语查询，首先将整个字符
具有非单词字符的单词边界

使用正则表达式匹配表达式为什么这两个示例匹配如下（突出显示）： c# < code>a #b #c #d 具体来说，为什么第一个字符串不匹配包含最后一个#之前的所有内容？由于单词边界（\b）是零宽度匹配，可以在单词字符（\w）和非单词字符（\ w）之间匹配，或者在单词字符和字符串的开始或结束之间匹配，我不确定以非单词字符结束表达式会如何影响匹配。
println词典具有“可选”

问题内容：考虑以下代码段：控制台输出：可选（[1、4、9、16、25] [75、43、103、87、12] 为什么字典中有“ Optional”？问题答案：为了安全起见，Swift字典正在返回可选内容。如果您尝试访问一个不存在的密钥，那将使您无用。您还可以使用下标语法从字典中检索特定键的值。因为可以请求不存在任何值的键，所以字典的下标返回字典值类型的可选值。如果字典包含所请求键的值，则
专题-词向量

神经语言模型神经语言模型什么是词向量/词嵌入词向量（word embedding）是一个固定长度的实值向量词向量是神经语言模型的副产品。词向量是针对“词”提出的。事实上，也可以针对更细或更粗的粒度来进行推广——比如字向量、句向量、文档向量等词向量的理解 TODO word2vec 中的数学原理详解（三）背景知识 - CSDN博客在 NLP 任务中，因为机器无法直接理解自然语言，所以首
使用spaCy删除含有停止词的名词短语

我一直在用spaCy查找最常用的名词和noun_phrases 在寻找单个名词时，我可以成功地去掉标点符号并停止单词然而，使用noun_chunks来确定短语会导致属性错误 spacy.tokens.span.Span对象没有属性我理解的性质的消息但我不能为我的生活得到语法正确的地方存在的停止字在一个emmatiated字符串将排除从被附加到noun_phrases列表不删除停止字的输出 [
带有虚假的名词短语

问题内容：如何使用spacy从文本中提取名词短语？我指的不是语音标签的一部分。在文档中，我找不到有关名词短语或常规分析树的任何内容。问题答案：如果要使用基本NP，即没有协调，介词短语或相对从句的NP，则可以在Doc和Span对象上使用noun_chunks迭代器：如果您需要其他内容，最好的方法是遍历句子中的单词并考虑句法上下文，以确定该单词是否支配您想要的短语类型。如果是这样，则产生其子

相关阅读

具有词组匹配功能的Edge NGram 中间带有单词的水平线的CSS技术匹配具有相同发音elasticsearch的单词 SQL词典表是否应具有IDENTITY列 Java 8-如何使用具有参数的谓词？

相关文章

PyTorch单词嵌入 Solr术语 PyTorch术语 VBA术语 Spark单词统计示例

相关问答

具有N次元组的jOOQ“in”谓词使用Laravel雄辩词通过多态性具有多种关系具有交叉验证的ngrams文本模型词与词之间的关联有没有办法强制Apache OpenNLP解析器看到动词短语而不是名词短语？

相关工具

语言岛智能记单词词Ci word分词 html5 歌词盘古分词

相关文档

命令行的艺术具有高级安全性的 Windows 防火墙区块链技术智能合约 Solidity 编程语言中文文档 React 技术揭秘技术文档 Cookbook