我们有一个系统,它维护正则表达式的存储库,并根据这些正则表达式检查一些传入文本,以达到某些过滤目的。下面描述了我们正在尝试构建的一个正则表达式。由于生产限制,我正在寻找的解决方案是严格基于regex的。
我有一个单词列表:word1、word2、word3、word4、word5、word6、word7、word8、word9、word10。我正在尝试编写一个正则表达式,如果一个字符串包含4个或更多这样的单词,那么它将在任何顺序的任何位置匹配该字符串。
我有以下正则表达式,但它似乎不做我需要的。
((?i)((word1)|(word2)|(word3)|(word4)|(word5)|(word6)|(word7)|(word8)|(word9)|(word10))\b){4,}
请用Java或Python表示法给出任何建议?
编辑:添加了一些背景信息。
也许是这样(不是regex,但我认为更具可读性):
words = ['word1', 'word2', 'word3', 'word4', 'word5', 'word6', 'word7', 'word8', 'word9', 'word10']
text = "Abc word2 def ghi word8"
sum(i in text for i in words)
您不需要使用正则表达式。如果您关心的只是任何单词的出现次数,那么您可以将输入列表转换为set
并对其执行交集
操作。
wrd_list = ["word1", "word2", "word3", "word4", "word5", "word6", "word7", "word8", "word9", "word10"]
s = "Abc word3 def word2 ghi word7 jkl word1 mno word5"
if len(set(wrd_list).intersection(s.split())) > 4:
print('more than 4 occurrences found')
编辑:这段代码是用Python编写的
以下正则表达式适用于我的所有测试:
(?i)(.*(^|\b)((word1)|(word2)|(word3)|(word4)|(word5)|(word6)|(word7)|(word8)|(word9)|(word10))($|\b).*){4,}
它们包括:
我认为您原来的正则表达式主要缺少了<代码>* 以匹配关键字前后的任何字符串。
我还仔细检查了它是行的开头还是在关键字(测试5)之前的边界字符,我认为它也丢失了。
问题内容: 我在为以下情况找到正确的正则表达式时遇到了麻烦: 可以说: 我想匹配整个单词-例如应该返回,因为这不是一个单词,并且应该返回,因为在左右两侧都没有字母字符。 问题答案: 尝试 从文档: 匹配空字符串,但仅匹配单词的开头或结尾。 请注意,该模块使用的简单定义作为“字母数字或下划线字符的序列”,其中“字母数字”取决于语言环境或选项。 另请注意,如果没有原始字符串前缀,则被视为“退格”,而不
我的输入只能有两个值或。我可以使用什么正则表达式来确保这两个单词中的任何一个都已提交?
我需要一个正则表达式来匹配以$开头的整个单词。表达式是什么,如何进行测试? 例子: 应提取此$word和$This。 在上面的句子中,可以找到和。
我想匹配单词的一部分,如果模式中单词的长度小于我匹配的字符串,则可以匹配,例如: 输出为true。但是,如果单词长度较大,则返回false,例如: 那么,我怎样才能只匹配单词的一部分呢?
给定下面的字符串 [NeMo(PROD)]10.10.100.100(EFA-B-3)[博科FC-Switch]传感器:电源#1(SNMP自定义表)关闭(无此名称(SNMP错误#2)) 我尝试获取多个匹配项以提取以下值: 因为我是正则表达式的初学者,所以我试图定义一些“规则”: 提取第一个圆括号内的第一个值,例如PROD 提取第一个闭合方括号和第二个开口圆括号之间的值,例如10.10.100.10
我需要使用通配符类型搜索筛选一组字符串,如下所示: 寻找应该匹配你好,但不是Helo 查找应该匹配"pant"和"想要"但不匹配"ant" 寻找应该匹配"吉普赛人"和"典型" 代表一个或多个字符。我不介意手写或基于正则表达式的搜索。有什么想法吗?典型的。NET方法的通配符匹配0或更多,但我需要1个或更多字符。我该怎么做?