当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

finalseg

基于HMM模型的中文分词
授权协议 未知
开发语言 Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 汪安宁
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分词

用法

  • 将finalseg目录放置于当前目录或者site-packages目录
  • import finalseg

代码示例

import finalseg

sentence_list = [
"姚晨和老凌离婚了",
"他说的确实在理",
"长春市长春节讲话"
]

print u"=默认效果"

for sentence in sentence_list:
    seg_list = finalseg.cut(sentence)
    print "/ ".join(seg_list)

print u"\n=打开新词发现功能后的效果\n"


for sentence in sentence_list:
    seg_list = finalseg.cut(sentence,find_new_word=True)
    print "/ ".join(seg_list)

算法

性能

  • 200 KB/Second
  • Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt

例子

  • python下的中文分词工具 finalseg库。 pypi仓库中又finalseg库,用户可以通过以下命令安装: easy_install finalseg 项目地址:https://github.com/fxsjy/finalseg 程序示例: # -*- encoding: utf-8 -*- import finalseg text = '对他们来说,只要日本不是逼太紧,也许拖是最好的

 相关资料
  • 本文向大家介绍基于Pytorch SSD模型分析,包括了基于Pytorch SSD模型分析的使用技巧和注意事项,需要的朋友参考一下 本文参考github上SSD实现,对模型进行分析,主要分析模型组成及输入输出大小.SSD网络结构如下图: 每输入的图像有8732个框输出; VGG基础网络结构: 输出为: SSD中添加的网络 add_extras函数构建基本的卷积层 输出为: multibox函数得到

  • 1. Hierarchical Softmax的缺点与改进 在讲基于Negative Sampling的word2vec模型前,我们先看看Hierarchical Softmax的的缺点。的确,使用霍夫曼树来代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢

  • 1. 基于Hierarchical Softmax的模型概述 我们先回顾下传统的神经网络词向量语言模型,里面一般有三层,输入层(词向量),隐藏层和输出层(softmax层)。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。这个模型如下图所示。其中V是词汇表的大小, word2vec对这个模型做了改进,首先,对于从输入层到隐藏

  • 本文向大家介绍python实现隐马尔科夫模型HMM,包括了python实现隐马尔科夫模型HMM的使用技巧和注意事项,需要的朋友参考一下 一份完全按照李航<<统计学习方法>>介绍的HMM代码,供大家参考,具体内容如下 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。

  • 我正在尝试使用Keras ResNet50实现来训练二值图像分类模型。 我想在不使用转移学习的情况下测试模型,但当我尝试使用简单的密集层(带有sigmoid激活)来更改二元分类的输出层时,我在形状大小方面出现了错误。 我的代码是这样的: 执行此操作时,我出现以下错误: 如果我在得到的致密层之前添加一个扁平层: 我错过了什么?如何更改致密层的输入形状?

  • 了解如何在 Dreamweaver“设计”视图和“代码”视图中识别模板和基于模板的文档。 在“设计”视图中识别模板 在“设计”视图中,可编辑区域出现在“文档”窗口的矩形外框中。查看“文档”窗口中的底部窗格可看到区域的名称。 通过查看“文档”窗口中的标题栏,可以识别模板文件。文件的文件扩展名为 .dwt。在“设计”视图中识别模板 在“代码”视图中识别模板 在“代码”视图中,使用以下注释标记 HTML