当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

Simple tokenizer

支持中文和拼音搜索的 SQLite fts5 插件
授权协议 MIT
开发语言 C/C++ SHELL
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 谷梁浩思
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

simple 是一个支持中文和拼音的 sqlite3 fts5 拓展。它完整提供了 微信移动端的全文检索多音字问题解决方案 一文中的方案四,非常简单和高效地支持中文及拼音的搜索。

实现相关介绍:https://www.wangfenjin.com/posts/simple-tokenizer/

在此基础上,还支持通过 cppjieba 实现更精准的词组匹配,介绍文章见 https://www.wangfenjin.com/posts/simple-jieba-tokenizer/

功能

  1. simple tokenizer 支持中文和拼音的分词,并且可通过开关控制是否需要支持拼音
  2. simple_query() 函数实现自动组装 match query 的功能,用户不用学习 fts5 query 的语法
  3. simple_highlight() 实现连续高亮 match 的词汇,与 sqlite 自带的 highlight 类似,但是 simple_highlight 实现了连续 match 的词汇分到同一组的逻辑,理论上用户更需要这样
  4. simple_highlight_pos() 实现返回 match 的词汇位置,用户可以自行决定怎么使用
  5. simple_snippet() 实现截取 match 片段的功能,与 sqlite 自带的 snippet 功能类似,同样是增强连续 match 的词汇分到同一组的逻辑
  6. jieba_query() 实现jieba分词的效果,在索引不变的情况下,可以实现更精准的匹配。可以通过 -DSIMPLE_WITH_JIEBA=OFF  关掉结巴分词的功能 #35
  7. jieba_dict() 指定 dict 的目录,只需要调用一次,需要在调用 jieba_query() 之前指定。
  • 这个包里有一本冰岛常用缩写的字典, 在文件 src/tokenizer/abbrev.conf 令牌赋予器是greynir项目的一个独立分支。 (github repository 此处 ),作者相同。 注意,当greynir被许可时,tokenizer是在mit许可下被许可的。 在GPLv3下。 你也可以找到 冰岛语的reynir自然语言分析器 很有趣。reynir解析器在其输入上使用标记器。

  • demo standard The standard tokenizer provides grammar based tokenization (based on the Unicode Text Segmentation algorithm, as specified in Unicode Standard Annex #29) and works well for most language

  • 如何科学地使用keras的Tokenizer进行文本预处理 缘起 之前提到用keras的Tokenizer进行文本预处理,序列化,向量化等,然后进入一个simple的LSTM模型中跑。但是发现用Tokenizer对象自带的 texts_to_matrix 得到的向量用LSTM训练不出理想的结果,反倒是换成Dense以后效果更好。后来实验了一下发现是对这个向量化函数的理解出现了偏差。鉴于网上没找到相

  • 例一: // simple_example_1.cpp #include<iostream> #include<boost/tokenizer.hpp> #include<string> int main(){   using namespace std;   using namespace boost;   string s = "This is, a test";   tokenizer<>

  • Tokenizer与Token Filter Tokenizer是自定义分词语,他将原始文本按照一定规则切分为单词,自带的有: Standard 将单词转换为小写, 并去除标点符号 Simple 根据非字母字符来分割文本信息,然后转为小写,该分词器会去掉数字类型的字符 Whitespace 以空格来分割 Stop 在Simple的基础上增加了去掉英文中的常用单词,比如 The,

  • 说明:本文是boost::tokenizer类的整理,原文出处为boost的document,此处仅作学习笔记之用。 1、boost::tokenizer boost::tokenizer提供了一种灵活、易用的方式来将一个字符串分解为一个字符串列表。这是个模板类,类的声明为: template < class TokenizerFunc = char_delimiters_sepa

  • tokenizer - Break of a string or other character sequence into a series of tokens, from John Bandela tokenizer - 分解字串,提取内容.作者: John Bandela 例一: // simple_example_1.cpp #include<iostream> #include<boos

 相关资料
  • 本文向大家介绍支持汉转拼和拼音分词的PHP中文工具类ChineseUtil,包括了支持汉转拼和拼音分词的PHP中文工具类ChineseUtil的使用技巧和注意事项,需要的朋友参考一下 PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin participle, simplified a

  • WooCommerce前台搜索只会从标题、内容、摘要里搜索,产品SKU有时比较重要,但它存储在custom field里,默认无法通过SKU搜索产品。本文介绍的方法可以让产品搜索支持SKU。 默认搜索 假设我要搜“SLK3423”这个SKU,默认搜索的SQL语句如下所示,可以看出只搜了标题、摘要和内容。 SELECT SQL_CALC_FOUND_ROWS wp_posts.id FROM w

  • 本文向大家介绍ubuntu16.04安装搜狗拼音的图文教程,包括了ubuntu16.04安装搜狗拼音的图文教程的使用技巧和注意事项,需要的朋友参考一下 首先在官网上面,下载最新的搜狗拼音输入法 Linux 版本。         双击运行,发现安装不了。         于是改在命令行运行。         运行后,发现提示少了一些依赖包,于是运行下面的命令:sudo apt-get -f ins

  • 用Wordpress写博客的时候,想要文章标题友好,会为每个文章都取一个单独的链接名字,通常使用英文或拼音标题。如果你的博客读者对英文感冒,选择拼音作链接名字相对会更友好一些。本插件可以代替系统缺省的数字标题,帮你自动把中文标题翻译成拼音,设置成永久链接地址。 本插件兼容 WordPress 英文友好 permalink; 插件仅对标题中的中文字符进行友好转换,字典范围为 GB2312 全码表约7

  • 我使用querydsl来构造动态搜索查询(并使用spring data mongodb API来执行它)。是否有一种方法可以构造支持$text(全文)搜索的querydsl查询?

  • 将搜索功能添加到 jsTree。 $.jstree.defaults.searchsearch plugin 存储搜索插件的所有默认值 $.jstree.defaults.search.ajaxsearch plugin 类似于 jQuery 的 AJAX 配置,如果应查询服务器以获取结果,则jstree使用该配置。 str 请求中将添加一个(搜索字符串)参数,inside 如果搜索仅限于节点ID

  • 我使用的是Spring Data Elasticsearch,我对使用ElasticSearch6.2的多搜索API感兴趣,以便在一个API请求中执行多个搜索。 https://www.elastic.co/guide/en/elasticsearch/reference/6.2/search-multi-search.html https://www.elastic.co/guide/en/el

  • 我正在通过gradle-intellij-plugin使用IntelliJ SDK编写一个插件。 我还将智能J插件的罐子添加到SDK类路径中 任何想法的原因?如何为这些专家/格拉德的东西引入支持?