当前位置: 首页 > 工具软件 > AEAI WX > 使用案例 >

AI NLP NLU 资料大乱炖

周翼
2023-12-01

如何理解最小二乘法?(被人鄙视了不知道什么叫统计的基本原理?这篇文章写的真好通俗易懂

https://blog.csdn.net/ccnt_2012/article/details/81127117

Python安装目录结构详解(WINDOWS下用PYTHON还是需要熟悉下环境的

https://blog.csdn.net/qq_43401808/article/details/88869397

Python+wordcloud+jieba+docx生成中文词云和词频统计(这个挺好玩的

https://blog.csdn.net/fengjianc/article/details/78929121

关于理解人跟机器的对话

Speech Act Theory言语行为理论
Austin认为,说任何一句话时,人们同时要完成三种行为:言内行为、言外行为、言后行为(顾芸英,1986)
Austin把言外行为分为五类:即,判定语(verdictives)、裁定语(exercitives)、承诺语(commissives)、阐述语(expositives)和行为语(behabitives)。后来,Searle批评了这一分类,把言外行为分为“新五类”:即,断言(assertives)、指令(directives)、承诺语(commissives)、表情语(expressives)和宣布(declarations)。
 

理解人类提问
英特调查后发现对于中文问题来说,无非可以分成以下两类:疑问句和反问句。对于反问句当然没什么好说的,我们来重点看看疑问句。可以分为是非问句、正反问句、特指问句、选择问句,其中特指问句又可以分为人、原因、地点、时间、意见、数量、方式和其余的实体。

对于问题来说,人类也需要首先对句子做一个判断,拿特指问题来说,需要判断到底是问什么?接着将每个问题做一个初步的定位,缩小回答时的搜索范围,最后从知识体系和场景中取得答案。

NLU 的难点主要在语料的准备, 接下来就自己了解到的经验进行一一记录。

每个意图要有关键字,意图中的每句都要有关键字。
每个关键字要扩充20左右的语句。
所有语句之间要够发散、离散(即除关键字外尽量不用重复的词语)。
除关键字之外,所有的词字,在每个意图中重复率要低、要低,最好不重复。
整个文件中,除关键字之外,所有的词字,重复率要低、要低,最好不重复。
上面两条造成的现象就是,你我他啊是的吗之类的词都要去掉(语义可以稍微不通顺,可接受)。
句式相同,参数不同的意图进行合并,通过后期校验参数进行分辨。
意图识别的准确度跟两方面有关

关键字在当前意图中出现的频率
关键字在整个文件中出现的频率

 

原创 | 工业场景下,问答机器人如何陪聊?  
https://www.sohu.com/a/270483785_473476
NLU(Natural Language Understanding)是采用NLP(Natural Language Processing)技术对用户问题进行意图识别和实体抽取。意图识别是要弄清楚用户到底要问什么,如是查询故障发生次数还是故障原因;实体抽取是这个意图下的具体槽位值。比如问句是“上个月发电机故障次数是多少”,意图就是“查询故障次数”,故障名称的槽位值是“发电机故障”,时间的槽位值是“上个月”。意图识别可以描述成为分类问题,使用机器学习的方法来解决,如SVM、fastText;实体抽取使用NLP里的NER(命名实体识别)相关技术解决。

Rasa使用指南01(想办法先做一个机器人出来?

https://terrifyzhao.github.io/2018/09/17/Rasa%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%9701.html
https://terrifyzhao.github.io/2019/02/26/Rasa%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%9702.html

自然语言处理之序列标注问题(用一个机器可以理解的办法来处理问题
https://www.cnblogs.com/jiangxinyang/p/9368482.html

一文详解深度学习在命名实体识别ner中的应用(到底是先分词还是先做NER纠结了很久,看完了不纠结了

http://www.52nlp.cn/%E4%B8%80%E6%96%87%E8%AF%A6%E8%A7%A3%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9C%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%ABner%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8

NER概念系统梳理
命名实体识别主要分类,一般包括 3 大类(实体类、时间类和数字类)和 7 小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)。但随着 NLP 任务的不断扩充,在特定领域中会出现特定的类别,比如医药领域中,药名、疾病等类别。

https://blog.csdn.net/f12105212/article/details/78500327

从材料硕士到算法工程师的转行之路(这个哥们看起来很牛啊,向他学习,人家很客气,也加了WX

https://www.cnblogs.com/jiangxinyang/p/10263414.html

 

 类似资料: