当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

Gensim

主题模型 Python 工具包

授权协议 LGPL-2.1

开发语言 Python

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区不详

投递者萧辰沛

操作系统跨平台

开源组织无

适用人群未知

软件概览

Gensim是一个相当专业的主题模型Python工具包。在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比较注重描述商品的属性和特性，角度更客观。gensim就是 Python 里面计算文本相似度的程序包。

示例代码：

针对商品评论和商品描述之间的相似度，怎么使用gensim来计算？

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度，从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf：term frequency词频

idf：inverse document frequency倒文档频率

主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

第一步：把每个网页文本分词，成为词包（bag of words）。
第三步：统计网页（文档）总数M。
第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）
第四步：重复第三步，计算出一个网页所有词的tf-idf 值。
第五步：重复第四步，计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步：对用户查询进行分词。
第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

使用案例

Gensim简介

Gensim（generate similarity）是一个简单高效的自然语言处理Python库，用于抽取文档的语义主题（semantic topics）。Gensim的输入是原始的、无结构的数字文本（纯文本），内置的算法包括Word2Vec，FastText，潜在语义分析（Latent Semantic Analysis，LSA），潜在狄利克雷分布（Latent Dirichlet Alloca
Gensim核心概念以及使用流程

1.Gensim的一些概念文件：一些文字。语料库：文件的集合。向量：文档的数学方便表示。模型：一种将向量从一种表示转换为另一种表示的算法。 2.加载语料库 # 语料库 import jieba #定义停用词、标点符号 punctuation = ["，","。", "：", "；", "？"] #定义语料 content = ["机器学习带动人工智能飞速的发展。",
Gensim库的使用——Gensim库的核心概念介绍

Gensim库介绍 Gensim是在做自然语言处理时较为经常用到的一个工具库，主要用来以无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达。主要包括TF-IDF，LSA，LDA，word2vec，doc2vec等多种模型。核心概念在gensim中有一些核心的概念，这里简要介绍一下： 1、Document（文档）：主要是指一些文本 2、Corpus（语料库）：文档的一个集合
Gensim

Gensim 从最原始的非结构化的文本中，无监督的学习到文本隐层的主题向量表达；支持包括LDA TF-IDFLSA word2vec等主题模型算法。官网基本概念语料 Corpus 向量 Vector 稀疏向量 SparseVector 模型 Model 安装安装环境 Ubuntu18.04 Anaconda3-5.3.1 !pip install gensim !conda list
gensim

Gensim 中文文档：https://gensim.apachecn.org/#/blog/Introduction/README 目录核心概念 1. Document 2. Corpus 2.1 预处理： 2.2 建立词汇表：gensim.corpora.Dictionary 2.3 dictionary.token2id：输出每个token与ID的对应 3. Vector 3.1 dic

Gensim

同类工具

相关阅读

相关文章

相关问答

相关文档