形态还原(针对英语、德语、法语等)
词性标注
命名实体识别
分词(针对汉语、日语等)
把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。
构词特点
study, studied,studied,studying
speak,spoke,spoken,speaking
friend,friendly,friendship,...
还原规则
通用规则:变化有规律
个性规则:变化无规律
英语“规则动词”还原
*s -> * (SINGULAR3)
*es -> * (SINGULAR3)
*ies -> *y (SINGULAR3)
*ing -> * (VING)
*ing -> *e (VING)
*ying -> *ie (VING)
*??ing -> *? (VING)
*ed -> * (PAST)(VEN)
*ed -> *e (PAST)(VEN)
*ied -> *y (PAST)(VEN)
*??ed -> *? (PAST)(VEN)
英语不规则动词还原
went -> go (PAST)
gone -> go (VEN)
sat -> sit (PAST) (VEN)
Proj. 1 实现一个英语单词还原工具。
(词典:http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar)
为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。
标注体系的确定
标注方法
词的分类
开放类(open class)
- Nouns
句法上:可作物主、可有限定词、有复数形式
语义上:人名、地名和物名
- Verbs
句法上:作谓语、有几种词形变化
语义上:动作、过程(一系列动作)
- Adjectives
句法上:修饰Nouns等
语义上:性质
- Adverbs
句法上:修饰Verbs等
语义上:方向、程度、方式、时间
封闭类(closed class,function words)
词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。
分词是指根据某个分词规范,把一个“字”串划分成“词”串。
问题:难以确定何谓汉语的“词”
1.单字词与语素的界定:猪肉、牛肉
2.词与短语(词组)的界定:黑板、黑布
信息处理用现代汉语分词规范:GB-13715(1992)
具体应用系统可根据各自的需求制定规范
分词带来的问题
交集型歧义字段
ABC切分成AB/C或A/BC
如:“和平等”
“独立/自主/和/平等/独立/的/原则”
“讨论/战争/与/和平/等/问题”
组合型歧义字段
AB切分成AB或A/B
如:“马上”
“他/骑/在/马/上”
“马上/过来”
混合型歧义
由交集型歧义和组合型歧义嵌套与交叉而成
如:“得到达”(交集型、组合型)
“我/今晚/得/到达/南京”
“我/得到/达克宁/了 ”
“我/得/到/达克宁/公司/去”
伪歧义与真歧义
伪歧义字段指在任何情况下只有一种切分
“挨批评”只有一种切分
根据歧义字段本身就能消歧
真歧义字段指在不同的情况下有多种切分
“从小学”可以有多种切分:
“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!)
“从/小学”,如:“他/从/小学/毕业/后”
**根据歧义字段的上下文来消歧**
一般通过分词词典和分词规则库进行分词。主要方法有:
正向最大匹配(FMM)或逆向最大匹配(RMM)
从左至右(FMM)或从右至左(RMM),取最长的词
“幼儿园 地 节目”或“幼儿 园地 节目”
双向最大匹配
分别采用FMM和RMM进行分词
如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):
正向最大、逆向最小匹配
逐词遍历匹配
设立切分标记
全切分
利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:
句法信息
“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”
语义信息
“了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)
语用信息
“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定
规则的粒度
基于具体的词(个性规则)
基于词类、词义类(共性规则)
Proj. 2 实现一个基于词典与规则的汉语自动分词系统。
(词典:)