当前位置：首页 > 面试题库 >

如何标记由两个单词合并而没有空格的单词

储俊英

2023-03-14

问题内容：

我有一个像这样的词lovelive，它由两个简单的词组合而成love，live没有空格。

我想知道哪种Lucene Analyzer可以将这种单词标记为两个单独的单词？

问题答案：

有一个看DictionaryCompoundWordTokenFilter作为在Solr的说明

该过滤器使用组成词的词典将复合词拆分或分解为单个词。每个输入令牌均不变地传递。如果还可以将其分解为子字，则每个子字也将在同一逻辑位置添加到流中。

在：“ Donaudampfschiff dummkopf”中

要过滤的令牌生成器：“ Donaudampfschiff”（1），“ dummkopf”（2），

输出：“ Donaudampfschiff”（1），“ Donau”（1），“ dampf”（1），“ schiff”（1），“
dummkopf”（2），“ dumm”（2），“ kopf”（2）

如您在示例配置中看到的，您将需要使用您想要拆分的语言的字典，在示例中，他们使用germanwords.txt，其中包含要分解的单词（如果找到的话）。在您的情况下，这将是love和live。

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.DictionaryCompoundWordTokenFilterFactory" dictionary="germanwords.txt"/>
</analyzer>

对于Lucene来说org.apache.lucene.analysis.compound.DictionaryCompoundWordTokenFilter。该代码可在github上找到。

类似资料：

标记与标记完美融合的单词，并保持标记有效

有没有一种方法可以在文本中标记一些单词，只是为了进一步的编程处理，而不是为了任何visuell之类的东西？假设我有以下文本： Lorem ipsum dolor sit amet，consetetur sadipscing elitr，sed diam nonumy eirmod tempor invidunt ut laboure et dolore magna aliquyam erat，se
正则表达式匹配没有尾随空格的单词和单词组合

我试图找出这种情况下的正则表达式模式，以便序列化结果：我想捕捉所有有限制的单词/单词组合：只有单词，没有数字或字符，除了撇号中间有空格的单词要包含在一起到目前为止，我已经想出了：但我有尾随空格。所以这和“七月”匹配，而不是“七月”。如何在保留单词之间的空格的同时防止尾随空格。
如果单元格有2个单词，则只提取第一个单词，如果单元格有3个单词，则提取2个第一个单词-PANDAS/REGEX

在我的数据框架中，有一列名为“teams”。它包括城市和球队名称。我想把这个城市拉进另一个纵队。这是数据帧：数据帧示例我可以使用正则表达式轻松提取列：然而，在“名称”栏中，对于纽约尼克斯队，它只给了我“New”的值，我想得到“New York”：结果那么，我该怎么做呢？如果单元格有2个单词，我该如何从开头只提取一个单词？如果单元格有3个单词，我该如何使用正则表达式从中提取2个单词？
我希望由var text生成的每个单词都在单个标记中

当前我的网站加载到这里时生成文本https://www.droolstudios.co.uk/home。我现在正在进行一些更改，希望每个单独的工作都在中生成。 HTML null null 有人有什么想法吗？
如何删除两个hr标记之间的空格？

为什么两个标记之间有空格？当我设置标记的宽度时，它不起作用。我将其设置为，但两个标记之间仍有空格。如何从标记中删除空格？以下是HTML和CSS代码： null null
HTML中单词之间的多个空格

问题内容：我使用的是条形码字体“ 9个常规中的3个免费字体”，在某些情况下，打印输出需要有多个空格，以匹配字段中的字符数。例：（项目编号后跟四个空格，以形成12个字符。如果字符数少，条形码阅读器会给我一个错误。将强制使用多个空格，但是IE和Firefox都将它们显示为标准字体空间，并且不使用条形码字体。条形码在非空格字符之间显示为细分。（顺便说一句，只有IE 6才以正确的字体显示。）如果我使

相关阅读

AutoCompleteTextView搜索部分单词而不是整个单词如何删除两个定界符之间的单词？如何有效地合并两个BST？如何合并两个JObject？从没有空格/组合词的文本中检测最可能出现的词

相关文章

Spark单词统计示例后缀自动机（单词的有向无环图）简介 Struts2 表单标签 JavaScript算法-反转字符串中的单词 III 【华为OD机试2023】单词倒序(Python)

相关问答

使用短语（而不是单个单词/标记）的ElasticSearch布尔过滤器在div中使用span（例如）标记换行单词，而div内部有HTML标记如何搜索一个分两行的单词？如何合并2个单元格以在空列单元格中生成新的值/文本？如何获得句子中单个单词的PoS标签？

相关工具

语言岛智能记单词四格菜单最简单代码实现九宫格简单的广告栏简单UITableViewDemo

相关文档

上云如此简单 Markdown 简单的世界 Git 菜单开发学习笔记合集如何使用 Gitbook 来做笔记