当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

Simple tokenizer

支持中文和拼音搜索的 SQLite fts5 插件

授权协议 MIT

开发语言 C/C++ SHELL

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者谷梁浩思

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

simple 是一个支持中文和拼音的 sqlite3 fts5 拓展。它完整提供了微信移动端的全文检索多音字问题解决方案一文中的方案四，非常简单和高效地支持中文及拼音的搜索。

在此基础上，还支持通过 cppjieba 实现更精准的词组匹配，介绍文章见 https://www.wangfenjin.com/posts/simple-jieba-tokenizer/

功能

simple tokenizer 支持中文和拼音的分词，并且可通过开关控制是否需要支持拼音
simple_query() 函数实现自动组装 match query 的功能，用户不用学习 fts5 query 的语法
simple_highlight() 实现连续高亮 match 的词汇，与 sqlite 自带的 highlight 类似，但是 simple_highlight 实现了连续 match 的词汇分到同一组的逻辑，理论上用户更需要这样
simple_highlight_pos() 实现返回 match 的词汇位置，用户可以自行决定怎么使用
simple_snippet() 实现截取 match 片段的功能，与 sqlite 自带的 snippet 功能类似，同样是增强连续 match 的词汇分到同一组的逻辑
jieba_query() 实现jieba分词的效果，在索引不变的情况下，可以实现更精准的匹配。可以通过 -DSIMPLE_WITH_JIEBA=OFF 关掉结巴分词的功能 #35
jieba_dict() 指定 dict 的目录，只需要调用一次，需要在调用 jieba_query() 之前指定。

使用案例

Python tokenizer包_程序模块 - PyPI - Python中文网

这个包里有一本冰岛常用缩写的字典，在文件 src/tokenizer/abbrev.conf 令牌赋予器是greynir项目的一个独立分支。 (github repository 此处 )，作者相同。注意，当greynir被许可时，tokenizer是在mit许可下被许可的。在GPLv3下。你也可以找到冰岛语的reynir自然语言分析器很有趣。reynir解析器在其输入上使用标记器。
[elasticsearch笔记] Analysis - Tokenizer

demo standard The standard tokenizer provides grammar based tokenization (based on the Unicode Text Segmentation algorithm, as specified in Unicode Standard Annex #29) and works well for most language
如何科学地使用keras的Tokenizer进行文本预处理

如何科学地使用keras的Tokenizer进行文本预处理缘起之前提到用keras的Tokenizer进行文本预处理，序列化，向量化等，然后进入一个simple的LSTM模型中跑。但是发现用Tokenizer对象自带的 texts_to_matrix 得到的向量用LSTM训练不出理想的结果，反倒是换成Dense以后效果更好。后来实验了一下发现是对这个向量化函数的理解出现了偏差。鉴于网上没找到相
tokenizer

例一: // simple_example_1.cpp #include<iostream> #include<boost/tokenizer.hpp> #include<string> int main(){ using namespace std; using namespace boost; string s = "This is, a test"; tokenizer<>
Elastic Search个人学习(4) 分词器 2 tokenizer与token filter

Tokenizer与Token Filter Tokenizer是自定义分词语，他将原始文本按照一定规则切分为单词，自带的有: Standard 将单词转换为小写, 并去除标点符号 Simple 根据非字母字符来分割文本信息，然后转为小写，该分词器会去掉数字类型的字符 Whitespace 以空格来分割 Stop 在Simple的基础上增加了去掉英文中的常用单词，比如 The,
用boost::tokenizer分割字符串

说明：本文是boost::tokenizer类的整理，原文出处为boost的document，此处仅作学习笔记之用。 1、boost::tokenizer boost::tokenizer提供了一种灵活、易用的方式来将一个字符串分解为一个字符串列表。这是个模板类，类的声明为： template < class TokenizerFunc = char_delimiters_sepa
boost::tokenizer分词器

tokenizer - Break of a string or other character sequence into a series of tokens, from John Bandela tokenizer - 分解字串,提取内容.作者: John Bandela 例一: // simple_example_1.cpp #include<iostream> #include<boos

Simple tokenizer

同类工具

相关阅读

相关文章

相关问答

相关文档