当前位置: 首页 > 面试题库 >

Lucene正则表达式中的单词边界

郭子航
2023-03-14
问题内容

我想在Elastisearch中使用单词边界进行正则表达式查询,但是看起来Lucene正则表达式引擎不支持\b。我可以使用哪些解决方法?


问题答案:

在ElasticSearch
regex风格中,没有直接等效于单词边界的功能。最初\b是一样的东西(^|[^A-Za-z0-9_]),如果word用一个字字符开始,并且尾部\b就像($|[^A-Za-z0-9_])如果word用一个字字符结束。

因此,我们需要确保word在字符串的前后或字符串的开始/结束处有一个非单词char
。由于正则表达式是默认锚定的,因此我们需要[^A-Za-z0-9_]在字符串的开始/结尾添加.*可选内容的方法是在旁边添加并使用可选的分组结构进行包装:

(.*[^A-Za-z0-9_])?word([^A-Za-z0-9_].*)?

细节

  • (.*[^A-Za-z0-9_])?-字符串的开头或任何0+字符(但是使用换行符char,否则使用(.|\n)*),然后是任何一个字符,但一个单词char(基本上是字符串的开头,后跟组中模式的1或0)
  • word - 一个字
  • ([^A-Za-z0-9_].*)? -任意char的可选序列,但单词char后跟任意0+字符,后跟字符串位置的末尾(在Lucene regex中隐含)。


 类似资料:
  • 我正在使用以下正则表达式: 我的目标是只验证数字(int和decimal),空格, ( ), 点,AND,OR。其他一切都是不允许的。它看起来像是工作的,但是我对单词边界\bAND\b和\bOR\b Eg有问题。我不能输入ANDWE或EEE或任何组合,但我能做的是AN或A。如何在字符串中只允许两个单词AND或OR?它们在字符串中是可选的。 输入示例 0.10和23-有效 12和(15或0.2)-有

  • 我正在尝试抓取模式中第一个连字符之后的文本 但在此模式中: 我希望它跳过‘不想要的’文本,并匹配的文本后面的下一个连字符(DesiredText)。我创建了一个具有两种模式regex101,并需要修改我的基本regex,以便如果中存在一个或多个我不想匹配的单词,那么它将匹配第二个连字符文本: https://regex101.com/r/vesqh3/1

  • 问题内容: 我目前正在编写一个用于匹配内容中特定单词的库。 本质上,它的工作方式是将单词编译为正则表达式,然后通过所述正则表达式运行内容。 我要添加的功能是指定要匹配的给定单词是否必须以单词开头和/或结尾。例如,我有这个词。我指定它 必须开始一个字 ,因此将 匹配 的是在开始,但 不能匹配 为不启动的话。 我想使用单词边界来执行此操作,但是在进行一些测试时,我发现它无法正常运行。 采取以下措施,

  • 我试图找到一个Java正则表达式,即使在输入文本中有一个\n时,它也能匹配一个单词。请注意\n应该显示为原始字符串。我使用的是典型的单词边界https://regex101.com/r/Se5iVW/1。 例如 在这里,我期望有5个匹配项(前四个匹配项和最后一个匹配项)。

  • 问题内容: 我们知道会匹配单词“ a ”或“ the ”, 我想构建一个正则表达式来匹配像这样的模式 的/一个/一个原因/原因 这意味着我要匹配包含3个单词的字符串: 的第一个单词应为“ a ”,“ the ”或“ one ” 第二个单词应该是“ 原因 ”或“ 原因 ” 的第三个字应为“ 的 ”或“ 的 ” 正则表达式无济于事。 我怎样才能做到这一点?顺便说一句,我使用python。谢谢。 问题答

  • 问题内容: 在尝试学习更多有关正则表达式的知识时,一个教程建议你可以使用b来匹配单词边界。但是,Python解释器中的以下代码片段无法按预期工作: 如果有任何匹配项,它应该是一个匹配对象,但它是。 不支持该表达式吗?还是我使用错误? 问题答案: 你为什么不尝试 输出: 还忘了提及,你应该在代码中使用原始字符串