ToolGood.Words

敏感词检测组件
授权协议 Apache
开发语言 C#
所属分类 应用工具、 个人助理软件
软件类型 开源软件
地区 国产
投 递 者 乜飞航
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

ToolGood.Words是一款高性能非法词(敏感词)检测组件,附带繁体简体互换,支持全角半角互换,获取拼音首字母,获取拼音字母等功能。

非法词(敏感词)检测类有:StringSearchWordsSearchIllegalWordsSearchIllegalWordsQuickSearch

示例代码:

    string s = "中国|国人|zg人";
    string test = "我是中国人";

    StringSearch iwords = new StringSearch();
    iwords.SetKeywords(s.Split('|'));

    var b = iwords.ContainsAny(test);
    Assert.AreEqual(true, b);

    var f = iwords.FindFirst(test);
    Assert.AreEqual("中国", f);

    var all = iwords.FindAll(test);
    Assert.AreEqual("中国", all[0]);
    Assert.AreEqual("国人", all[1]);
    Assert.AreEqual(2, all.Count);

    var str = iwords.Replace(test, '*');
    Assert.AreEqual("我是***", str);

性能对比:(10万次对比)

StringSearch.ContainsAny的效率是正则IsMatch的1.5W倍。

Regex.Matches的运行方式跟IQueryable的类似,只返回MatchCollection,还没有计算。

TrieFilter,FastFilter为其他网友算法,来源请看文档。

获取中文全拼:

自带多音词库,不带分词功能,特殊情况下会出现拼音错误。

            var py = WordsHelper.GetPinYin("快乐,乐清");
            Assert.AreEqual("KuaiLe,YueQing", py);

开源地址:

码云: https://gitee.com/toolgood/ToolGood.Words

GitHub: https://github.com/toolgood/ToolGood.Words

 相关资料
  • 一、本功能说明 对网站内容进行过滤屏蔽,以免违反互联网相关政策而导致网站被关闭 二、子功能导航 1.添加敏感词 2.修改敏感词 2.删除敏感词 三、功能详解 1.添加敏感词 1).如何进入本功能 导航栏 选择扩展 -> 菜单栏 选择 敏感词管理-> 顶部添加敏感词或者批量导入 2).界面解释 a.)点击添加敏感词后显示如下界面 界面详述 1). 敏感词: 请填写您要屏蔽的任何词语 2). 替换词:

  • 注意:“敏感词过滤”功能需在“应用防护管理”中开启对应的防护(Web防护/Nginx自编译/RASP)才可使用。 “敏感词过滤”是指对互联网发布的言论和文章中含有的敏感词进行过滤。敏感词经过在互联网的传播和扩散会影响社会的稳定和用户的使用。网防G01的“敏感词过滤”功能可以对用户post请求的内容阻止并提示,而get请求的内容则使用“*”号替代敏感词。如果网站开启GZIP时,敏感词过滤则不生效。

  • 本文向大家介绍python 实现敏感词过滤的方法,包括了python 实现敏感词过滤的方法的使用技巧和注意事项,需要的朋友参考一下 如下所示: 测试结果: 1) 敏感词 100个 2) 敏感词 1000 个 从上面的实验我们可以看出,在DFA 算法只有在敏感词较多的情况下,才有意义。在百来个敏感词的情况下,甚至不如普通算法 下面从理论上推导时间复杂度,为了方便分析,首先假定消息文本是等长的,长度为

  • 本文向大家介绍浅谈Python 敏感词过滤的实现,包括了浅谈Python 敏感词过滤的实现的使用技巧和注意事项,需要的朋友参考一下 一个简单的实现 其中strip() 函数 删除附近的一些空格,解码采用utf-8的形式,然后将其转为小写。 parse()函数就是打开文件,然后从中取各个关键词,然后将其存在关键词集合中。 filter()函数是一个过滤器函数,其中将消息转化为小写,然后将关键词替换成

  • 问题内容: 在理解Java JDBC ResultSet Types时,有两种滚动类型TYPE_SCROLL_SENSITIVE和TYPE_SCROLL_INSENSITIVE,我知道。但是当我进行实际实施时,我没有看到效果。下面是代码: 当程序到达LINE 39时,我从后端更新了数据库以进行记录。对于TYPE_SCROLL_INSENSITIVE,它不显示应执行的更新记录,但对于TYPE_SCR

  • 磁敏传感器可以检测模块周围是否有磁体。 生活实例 扫地机器人的虚拟墙使用了磁场检测来判断能否通行。 参数 尺寸:24×20mm 检测距离:<1cm 工作电流:15mA