当前位置：首页 > 面试题库 >

从numpy python中的稀疏矩阵生成密集矩阵

鲍俊杰

2023-03-14

问题内容：

我有一个Sqlite数据库，其中包含以下类型的架构：

termcount(doc_num, term , count)

该表包含术语及其在文档中的各自计数。喜欢

(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)

该矩阵可以被视为稀疏矩阵，因为每个文档都包含很少的具有非零值的项。

我将如何使用numpy从稀疏矩阵创建密集矩阵，因为我必须使用余弦相似度来计算文档之间的相似度。

这个密集的矩阵看起来像一个表格，第一列为docid，所有术语列为第一行，其余单元格将包含计数。

问题答案：

我用熊猫解决了这个问题。因为我们要保留文档ID和术语ID。

from pandas import DataFrame

# A sparse matrix in dictionary form (can be a SQLite database). Tuples contains doc_id        and term_id. 
doc_term_dict={('d1','t1'):12, ('d2','t3'):10, ('d3','t2'):5}

#extract all unique documents and terms ids and intialize a empty dataframe.
rows = set([d for (d,t) in doc_term_dict.keys()])  
cols = set([t for (d,t) in doc_term_dict.keys()])
df = DataFrame(index = rows, columns = cols )
df = df.fillna(0)

#assign all nonzero values in dataframe
for key, value in doc_term_dict.items():
    df[key[1]][key[0]] = value

print df

输出：

    t2  t3  t1
d2  0  10   0
d3  5   0   0
d1  0   0  12

类似资料：

熊猫稀疏dataFrame到稀疏矩阵，而不在内存中生成密集矩阵

问题内容：有没有一种方法可以从a转换为，而不会在内存中生成密集矩阵？不起作用，因为它生成一个密集矩阵，该矩阵被强制转换为。提前致谢！问题答案：熊猫文档讨论了将稀疏稀疏性实验转换为SparseSeries.to_coo： http://pandas-docs.github.io/pandas-docs-travis/sparse.html#interaction-with- scipy-s
稀疏矩阵(Sparse Matrix)

稀疏矩阵(Sparse Matrix) 注：压缩存储的矩阵可以分为特殊矩阵和稀疏矩阵。对于那些具有相同元素或零元素在矩阵中分布具有一定规律的矩阵，被称之为特殊矩阵。对于那些零元素数据远远多于非零元素数目，并且非零元素的分布没有规律的矩阵称之为稀疏矩阵。 1. 稀疏矩阵的概念在矩阵中，若数值为0的元素数目远远多于非0元素的数目时，则称该矩阵为稀疏矩阵。与之相反，若非0元素数目占大多数时，则称该矩阵
2.5. SciPy 中稀疏矩阵

2.5.1 介绍 (密集) 矩阵是: 数据对象存储二维值数组的数据结构重要特征: 一次分配所有项目的内存通常是一个连续组块，想一想Numpy数组快速访问个项目(*) 2.5.1.1 为什么有稀疏矩阵？内存，增长是n**2 小例子（双精度矩阵）: In [2]: import numpy as np import matplotlib.pyplot as plt x = np.li
稀疏矩阵行列式

我正在实现一个稀疏矩阵类，使用映射向量来存储数据（映射表示矩阵的一行，其中键是列的索引，值是该位置的maitrix的值）我已经编写了计算行列式的函数，但我不知道是否有一种方法可以计算这种节省的时间（因为矩阵是稀疏的，大多数值为零）在这里我的实现：这是类接口我计算行列式的方式是什么？假设运算符（）以这种方式重载提前感谢您的帮助
CSV到Python中的稀疏矩阵

问题内容：我有一个很大的csv文件，其中列出了图中节点之间的连接。例： 0001,95784 0001,98743 0002,00082 0002,00091 因此，这意味着节点id 0001连接到节点95784和98743，依此类推。我需要将其读入numpy中的稀疏矩阵。我怎样才能做到这一点？我是python的新手，所以有关此的教程也将有所帮助。问题答案：使用scipy的lil_matri
python中负稀疏矩阵的sqrt

如何在python中找到包含负数的稀疏矩阵的sqrt？和对负数不起作用。我还尝试使用。但它也不起作用。

相关阅读

在HDF5（PyTables）中存储Numpy稀疏矩阵使用SciPy / Numpy在Python中连接稀疏矩阵 C++ 数据结构之对称矩阵及稀疏矩阵的压缩存储 Scikit-Learn的管道：通过了稀疏矩阵，但是需要密集数据 Python使用稀疏矩阵节省内存实例

相关文章

NumPy矩阵乘法 NumPy Matrix矩阵库矩阵的转置算法矩阵的压缩存储可追踪性矩阵

相关问答

稀疏矩阵的最小分量划分用pyspark并行scipy-csr稀疏矩阵实现大矩阵乘法使用scipy.sparse从pandas数据帧创建稀疏矩阵在Python中加载matlab稀疏矩阵（matlab v 7.3）将稀疏矩阵与Keras和Tensorflow结合使用

相关工具

中国制霸生成器 sitemap.xml 生成器解压TexturePacker生成的文件 PHP代码生成器 Quartz 表达式生成器

相关文档

设计数据密集型应用 Xcode Server 持续集成指南 lemp PHP 集成运行环境 Duang 基于配置自动生成 CMS 数据采集从入门到放弃