Chatbot-1-笔记

程祺

2023-12-01

分类

Rules-base机器人

最稳定，用规则制定好

Retrieval-based

提取为基础。使用KE(知识网络/专家引擎) 建立index
存在问题检索速度/精确度
引入：intent(意图) 同一意图归于一个节点。(文本分类器)

Generative

生成模型
电影对白+It support 两组对话。/机器人对话更加平滑同时能解决问题/chatterbot库/python =glue language/英语有空格 == 中文分词库

知识框架

	Retrieval-based	Generative
open domain	impossible	General AI(Hardest)
closed domain	Rules-Based	Smart Machine(hard)

问题

语境

语言语境：这句话在说什么内容？(语言的embed。word vector)Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network
Models（Lulian et al., 2015）
物理语境：这句话在那时说的？(where when)Attention with Intention for a Neural Network Conversation Model
(Yao, 2015)

统一的语言个性

电影对白不是一个人说的，一堆人说的。人力清洗/高质量。A Persona-Based Neural Conversation Model (Li et al., 2016)
persona->obj function [BIG5 性格]

模型验证

Rules-based简单。
生成模型–》正误需要人类智慧解读
How NOT To Evaluate Your Dialogue System: An Empirical Study of
Unsupervised Evaluation Metrics for Dialogue Response Generation（Liu,
2016）

多样性

很多都回答一个答案/无多样性
A Diversity-Promoting Objective Function for Neural Conversation
Models（Li et al. 2015）

key

tokenize 切分词：把字符串变为词串

分词

1.启发式Heuristic（查字典）A.最大匹配法B.最短路径法C.最大概率法 jieba
2.机器学习/统计方法（从数据中学习）：（HMM、CRF）公式计算P（可能），（NN，LSTM，RNN）黑盒
分词面对的问题：
1.分词歧义(交集/组合/混合型歧义) 真/伪歧义
2.未登录词（OOV）

英语归一化

Inflection变化: walk => walking => walked
不影响词性 (时态)

derivation 引申: nation (noun) => national (adjective) => nationalize (verb)
影响词性

通过查表
Stemming 词⼲提取：⼀般来说，就是把不影响词性的inflection的⼩尾巴砍掉
walking 砍ing = walk
walked 砍ed = walk

Lemmatization 对词进行内部结构和形式分析：词形归⼀：把各种类型的词的变形，都归为⼀个形式
went 归⼀ = go
are 归⼀ = be

为了更好实现lemma 引入POS(part of speech)文语转换Tag 没有POS Tag 默认NN名词(先POS 后lemma)–检索过程慢

虚词表(stopwords)

对于注重理解文本【意思】的应用场景来说歧义太多增加复杂度
英文stopwords
中文stopwords
百度stopwords

文本分类-向量化

TF-IDF

语义–>占位符
占位符–>数字化–>特征工程