当前位置: 首页 > 工具软件 > pkuseg > 使用案例 >

python实现基于北大开源的分词工具 pkuseg 进行分词实践

翟高明
2023-12-01

    今天无意间搜寻到一个开源的项目,是北大开源的python版本的分词工具,忍不住就来试用一下,下面就是具体的实践,总体很简单,直接是拿的官方的几个接口来体验一下,主要是掌握多一个的分词工具,之前分词主要是依赖于结巴分词,这里相当于多了一个选择,据说准确率很不错,今天只是简单使用一下。

#!usr/bin/env python
#encoding:utf-8


'''
__Author__:沂水寒城
功能: 基于北大开源的分词工具 pkuseg 进行分词实践 https://github.com/yishuihanhan/pkuseg-python

参数说明
pkuseg.pkuseg(model_name='msra', user_dict='safe_lexicon')
model_name      模型路径。默认是'msra'表示我们预训练好的模型(仅对pip下载的用户)。用户可以填自己下载或训练的模型所在的路径如model_name='./models'。
user_dict       设置用户词典。默认为'safe_lexicon'表示我们提供的一个中文词典(仅pip)。用户可以传入一个包含若干自定义单词的迭代器。
pkuseg.test(readFile, outputFile, model_name='msra', user_dict='safe_lexicon', nthread=10)
readFile        输入文件路径
outputFile      输出文件路径
model_name      同pkuseg.pkuseg
user_dict       同pkuseg.pkuseg
nthread         测试时开的进程数
pkuseg.train(trainFile, testFile, savedir, nthread=10)
trainFile       训练文件路径
testFile        测试文件路径
savedir         训练模型的保存路径
nthread         训练时开的进程数
'''

import pkuseg



def testFunc():
    '''
    分词
    '''
    seg = pkuseg.pkuseg()               #以默认配置加载模型
    text = seg.cut('我爱北京天安门')   #进行分词
    print(text)
    print('='*60)
    lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开
    seg = pkuseg.pkuseg(user_dict=lexicon)  #加载模型,给定用户词典
    text = seg.cut('我爱北京天安门')       #进行分词
    print(text)
    print('='*60)
    seg = pkuseg.pkuseg(model_name='ctb8')    #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
    text = seg.cut('我爱北京天安门')           #进行分词
    print(text)
    print('='*60)
    pkuseg.test('input.txt', 'output.txt', nthread=20)  #对input.txt的文件分词输出到output.txt中,使用默认模型和词典,开20个进程

   


if __name__=='__main__':
    testFunc()

     在运行上述代码之前需要自己提前下载模型保存到本地。       

      结果如下:

loading model
finish
['我', '爱', '北京', '天安门']
============================================================
loading model
finish
['我', '爱', '北京天安门']
============================================================
loading model
finish
['我', '爱', '北京', '天安门']
============================================================
loading model
finish
Total time: 120.72599983215332

      这里贴一下上述使用的数据文件 input.txt  和  output.txt,一共10条语料数据。

      input.txt

我们都有一个家名字叫中国,兄弟姐妹都很多,景色也不错。
男子倒车时将自己碾死,监控记录离奇过程
小米今日有30多亿股限售股解禁,小米集团发布公告,称雷军各控股股东自愿承诺未来365天不出售直接或间接实益拥有的公司股份,惟控股股东可将所持有不超过639,596,190股本公司B类股份
2018年3月5日,王雪吞下十几片安眠药试图自杀,被同学及时发现,将她送往淮安市第一人民医院。洗胃后,她被抢救了过来。
袁咏仪和张智霖是娱乐圈人人羡慕的一对,多年夫妻感情没有变质,从来没有传出夫妻间的任何负面消息。近日张智霖发文分道扬镳,网友纷纷猜测是不是夫妻感情出了问题,随后袁咏仪出面澄清,表示张智霖中文不过关,不会用成语。
日前有网友质疑济南趵突泉为风水养海豹,其中一只海豹眼睛还有伤。趵突泉官方微博8日发布声明称,“趵突泉养海豹为风水说”为不实报道,景区泉水养海豹由来已久,2003年已取得驯养海豹的相关许可证;有一只海豹眼睛发炎,经动物饲养专家会诊后确诊为角膜炎,此为海豹在淡水养殖过程中常见病。
美通社最近公布了"2018年全球企业品牌影响力"排名,不出意料的是亚马逊、特斯拉、苹果等品牌分别位列前茅,而令人惊喜的是,第一名是来自中国的阿里巴巴。
报道称,俄医学和生物问题研究所长期以来一直在地球上进行类似的实验,现在正在进行登月模拟实验系列研究。2017年进行了短期试验,船员被锁进舱室,模拟飞往月球并返回,历时17天。 在2019年3月的第一周,将启动为期四个月的研究阶段。此外,还计划进行为期8个月和3年的研究阶段,为期1年以上试验的可行性研究已经开始。每个研究阶段试验的航天员组成,不分国家和性别,均可参加。
据网友爆料,1月3日,河南农业大学体育学院举办了一场体育学考试,距开考不到20分钟,就有学生因作弊被老师逐出考场,卷面大面积空白。监考老师手下留情,未将该生作弊行为上报学校教务处记录在档。网友称:“因为该学生是学生干部,跟各位老师和领导关系好,托关系找到评卷老师给予人情上的贿赂,分数出来后该学生分数远远高于其他人的成绩,且该科目挂科率高。”
人民网北京1月8日电(记者高星)记者今天从朝阳区“两会”获悉,2019年,朝阳区预计疏解退出一般制造业企业26家,疏解升级商品交易市场9家、区域性物流基地2家,拆除违法建设不低于570万平方米。腾退的土地大部分将用于留白增绿,预计2019年朝阳区留白增绿面积将达215万余平方米,是2018年的近两倍,同时,还将新建105个便民商业网点,增加停车位2000个。

     output.txt

我们 都 有 一个 家 名字 叫 中国 , 兄弟姐妹 都 很多 , 景色 也 不错 。
男子 倒车 时 将 自己 碾 死 , 监控 记录 离奇 过程
小米 今日 有 30多亿股 限售 股 解禁 , 小米集团 发布 公告 , 称雷军 各 控股 股东 自愿 承诺 未来 365天 不 出售 直接 或 间接 实益 拥有 的 公司 股份 , 惟 控股 股东 可 将 所 持有 不 超过 639, 596, 190 股本 公司 B类 股份
2018年3月5日 , 王雪吞 下 十几片 安眠药 试图 自杀 , 被 同学 及时 发现 , 将 她 送往 淮安市第一人民医院 。 洗 胃 后 , 她 被 抢救 了 过来 。
袁咏仪 和 张智霖 是 娱乐 圈 人人 羡慕 的 一对 , 多年 夫妻 感情 没有 变质 , 从来没有 传出 夫妻 间 的 任何 负面 消息 。 近日 张智霖 发文 分道扬镳 , 网友 纷纷 猜测 是不是 夫妻 感情 出 了 问题 , 随后 袁 咏 仪 出面 澄清 , 表示 张智霖 中文 不 过关 , 不会 用 成语 。
日前 有 网友 质疑 济南趵突泉 为 风水 养 海豹 , 其中 一 只 海豹 眼睛 还有 伤 。 趵突泉官方微博 8日 发布 声明 称 , “ 趵突泉养海豹 为 风水 说 ” 为 不 实 报道 , 景区 泉水 养 海豹 由来已久 , 2003年 已 取得 驯 养 海豹 的 相关 许可证 ; 有 一 只 海豹 眼睛 发炎 , 经 动物 饲养 专家 会诊 后 确诊 为 角膜炎 , 此 为 海豹 在 淡水 养殖 过程 中 常见病 。
美通社 最近 公布 了 " 2018年 全球 企业 品牌 影响 力 " 排名 , 不 出 意料 的 是 亚马逊 、 特斯拉 、 苹果 等 品牌 分别 位 列 前茅 , 而 令人 惊喜 的 是 , 第一名 是 来自 中国 的 阿里巴巴 。
报道 称 , 俄 医学 和 生物问题研究所 长期以来 一直 在 地球 上 进行 类似 的 实验 , 现在 正在 进行 登月 模拟 实验 系列 研究 。 2017年 进行 了 短期 试验 , 船员 被 锁 进 舱 室 , 模拟 飞往 月球 并 返回 , 历时 17天 。 在 2019年3月 的 第一周 , 将 启动 为期 四个月 的 研究 阶段 。 此外 , 还 计划 进行 为期 8个月 和 3年 的 研究 阶段 , 为期 1年 以上 试验 的 可行性研究 已经 开始 。 每个 研究 阶段 试验 的 航天员 组成 , 不 分 国家 和 性别 , 均 可 参加 。
据 网友 爆料 , 1月3日 , 河南 农业大学 体育学院 举办 了 一 场 体育学 考试 , 距 开 考 不 到 20分钟 , 就 有 学生 因 作弊 被 老师 逐出 考场 , 卷面 大 面积 空白 。 监考 老师 手下留情 , 未 将 该 生 作弊 行为 上报 学校 教务 处 记录 在 档 。 网 友称 : “ 因为 该 学生 是 学生 干部 , 跟 各位 老师 和 领导 关系 好 , 托 关系 找到 评卷 老师 给予 人情 上 的 贿赂 , 分数 出来 后 该 学生 分数 远远 高于 其他 人 的 成绩 , 且 该 科目 挂 科 率 高 。 ”
人民 网 北京 1月8日 电 ( 记者 高星 ) 记者 今天 从 朝阳区 “ 两会 ” 获悉 , 2019年 , 朝阳区 预计 疏解 退出 一般 制造业 企业 26家 , 疏解 升级 商品 交易 市场 9家 、 区域性 物流 基地 2家 , 拆除 违法 建设 不 低于 570万平方米 。 腾 退 的 土地 大部分 将 用于 留 白 增 绿 , 预计 2019年 朝阳区 留 白 增 绿 面积 将 达 215万余平方米 , 是 2018年 的 近 两倍 , 同时 , 还 将 新建 105个 便民 商业网点 , 增加 停车 位 2000个 。

 类似资料: