当前位置: 首页 > 工具软件 > book-toot-bot > 使用案例 >

Chatbot-1-笔记

程祺
2023-12-01

分类

Rules-base机器人

最稳定,用规则制定好

Retrieval-based

提取为基础。使用KE(知识网络/专家引擎) 建立index
存在问题 检索速度/精确度
引入:intent(意图) 同一意图归于一个节点。(文本分类器)

Generative

生成模型
电影对白+It support 两组对话。/机器人对话更加平滑同时能解决问题/chatterbot库/python =glue language/英语有空格 == 中文分词库

知识框架

Retrieval-basedGenerative
open domainimpossibleGeneral AI(Hardest)
closed domainRules-BasedSmart Machine(hard)

问题

语境

语言语境:这句话在说什么内容?(语言的embed。word vector)Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network
Models(Lulian et al., 2015)

物理语境:这句话在那时说的?(where when)Attention with Intention for a Neural Network Conversation Model
(Yao, 2015)

统一的语言个性

电影对白不是一个人说的,一堆人说的。人力清洗/高质量。A Persona-Based Neural Conversation Model (Li et al., 2016)
persona->obj function [BIG5 性格]

模型验证

Rules-based简单。
生成模型–》正误需要人类智慧解读
How NOT To Evaluate Your Dialogue System: An Empirical Study of
Unsupervised Evaluation Metrics for Dialogue Response Generation(Liu,
2016)

多样性

很多都回答一个答案/无多样性
A Diversity-Promoting Objective Function for Neural Conversation
Models(Li et al. 2015)

key

tokenize 切分词 :把字符串变为词串

分词

1.启发式Heuristic(查字典)A.最大匹配法B.最短路径法C.最大概率法 jieba
2.机器学习/统计方法(从数据中学习):(HMM、CRF)公式计算P(可能 ),(NN,LSTM,RNN)黑盒
分词面对的问题:
1.分词歧义(交集/组合/混合型歧义) 真/伪歧义
2.未登录词(OOV)

英语归一化

Inflection变化: walk => walking => walked
不影响词性 (时态)

derivation 引申: nation (noun) => national (adjective) => nationalize (verb)
影响词性

通过查表
Stemming 词⼲提取:⼀般来说,就是把不影响词性的inflection的⼩尾巴砍掉
walking 砍ing = walk
walked 砍ed = walk

Lemmatization 对词进行内部结构和形式分析:词形归⼀:把各种类型的词的变形,都归为⼀个形式
went 归⼀ = go
are 归⼀ = be

为了更好实现lemma 引入POS(part of speech)文语转换Tag 没有POS Tag 默认NN名词(先POS 后lemma)–检索过程 慢

虚词表(stopwords)

对于注重理解文本【意思】的应用场景来说歧义太多 增加复杂度
英文stopwords
中文stopwords
百度stopwords

文本分类-向量化

TF-IDF

语义–>占位符
占位符–>数字化–>特征工程

 类似资料: