最稳定,用规则制定好
提取为基础。使用KE(知识网络/专家引擎) 建立index
存在问题 检索速度/精确度
引入:intent(意图) 同一意图归于一个节点。(文本分类器)
生成模型
电影对白+It support 两组对话。/机器人对话更加平滑同时能解决问题/chatterbot库/python =glue language/英语有空格 == 中文分词库
Retrieval-based | Generative | |
---|---|---|
open domain | impossible | General AI(Hardest) |
closed domain | Rules-Based | Smart Machine(hard) |
语言语境:这句话在说什么内容?(语言的embed。word vector)Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network
Models(Lulian et al., 2015)
物理语境:这句话在那时说的?(where when)Attention with Intention for a Neural Network Conversation Model
(Yao, 2015)
电影对白不是一个人说的,一堆人说的。人力清洗/高质量。A Persona-Based Neural Conversation Model (Li et al., 2016)
persona->obj function [BIG5 性格]
Rules-based简单。
生成模型–》正误需要人类智慧解读
How NOT To Evaluate Your Dialogue System: An Empirical Study of
Unsupervised Evaluation Metrics for Dialogue Response Generation(Liu,
2016)
很多都回答一个答案/无多样性
A Diversity-Promoting Objective Function for Neural Conversation
Models(Li et al. 2015)
tokenize 切分词 :把字符串变为词串
1.启发式Heuristic(查字典)A.最大匹配法B.最短路径法C.最大概率法 jieba
2.机器学习/统计方法(从数据中学习):(HMM、CRF)公式计算P(可能 ),(NN,LSTM,RNN)黑盒
分词面对的问题:
1.分词歧义(交集/组合/混合型歧义) 真/伪歧义
2.未登录词(OOV)
Inflection变化: walk => walking => walked
不影响词性 (时态)
derivation 引申: nation (noun) => national (adjective) => nationalize (verb)
影响词性
通过查表
Stemming 词⼲提取:⼀般来说,就是把不影响词性的inflection的⼩尾巴砍掉
walking 砍ing = walk
walked 砍ed = walk
Lemmatization 对词进行内部结构和形式分析:词形归⼀:把各种类型的词的变形,都归为⼀个形式
went 归⼀ = go
are 归⼀ = be
为了更好实现lemma 引入POS(part of speech)文语转换Tag 没有POS Tag 默认NN名词(先POS 后lemma)–检索过程 慢
对于注重理解文本【意思】的应用场景来说歧义太多 增加复杂度
英文stopwords
中文stopwords
百度stopwords
TF-IDF
语义–>占位符
占位符–>数字化–>特征工程