代码如下:
from LAC import LAC
# 分词的功能
def fenci():
# 装载分词模型
lac = LAC(mode='seg')
# 单个样本输入,输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
seg_result = lac.run(text)
print(seg_result)
# 批量样本输入, 输入为多个句子组成的list,平均速率会更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
seg_result = lac.run(texts)
print(seg_result)
# 词性标注以及实体的识别
def cixingbiaozhuheshitishibie():
# 装载LAC模型
lac = LAC(mode='lac')
# 单个样本输入,输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
lac_result = lac.run(text)
# 批量样本输入, 输入为多个句子组成的list,平均速率更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
lac_result = lac.run(texts)
print(lac_result)
# 标签 含义 标签 含义 标签 含义 标签 含义
# n 普通名词 f 方位名词 s 处所名词 nw 作品名
# nz 其他专名 v 普通动词 vd 动副词 vn 名动词
# a 形容词 ad 副形词 an 名形词 d 副词
# m 数量词 q 量词 r 代词 p 介词
# c 连词 u 助词 xc 其他虚词 w 标点符号
# PER 人名 LOC 地名 ORG 机构名 TIME 时间
# 表现词语重要性
def ciyuzhongyaoxing():
# 装载词语重要性模型
lac = LAC(mode='rank')
# 单个样本输入,输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
rank_result = lac.run(text)
# 批量样本输入, 输入为多个句子组成的list,平均速率会更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
rank_result = lac.run(texts)
print(rank_result)
# 定制化功能
def dingzhihua():
lac = LAC()
# 装载干预词典, sep参数表示词典文件采用的分隔符,为None时默认使用空格或制表符'\t'
lac.load_customization('custom.txt', sep=None)
# 干预后结果
custom_result = lac.run(u"春天的花开秋天的风以及冬天的落阳")
print(custom_result)
if __name__ == '__main__':
# 测试分词的操作
# fenci()
# 进行此行的标注以及实体的识别
# cixingbiaozhuheshitishibie()
# 表现词语重要性的
# ciyuzhongyaoxing()
# 定制化功能
# dingzhihua()
参考文档如下:
https://github.com/baidu/lac/blob/master/python/README.md