当前位置：首页 > 面试题库 >

从SciPy稀疏矩阵填充熊猫SparseDataFrame

敖硕

2023-03-14

问题内容：

我注意到Pandas现在已支持稀疏矩阵和数组。目前，我创建DataFrame()这样的：

return DataFrame(matrix.toarray(), columns=features, index=observations)

有没有办法SparseDataFrame()用scipy.sparse.csc_matrix()或创建一个csr_matrix()？转换为密集格式会严重破坏RAM。谢谢！

问题答案：

不支持直接转换ATM。欢迎捐款！

试试这个，在内存上应该没问题，因为SpareSeries很像csc_matrix（用于1列），而且空间效率很高

In [37]: col = np.array([0,0,1,2,2,2])

In [38]: data = np.array([1,2,3,4,5,6],dtype='float64')

In [39]: m = csc_matrix( (data,(row,col)), shape=(3,3) )

In [40]: m
Out[40]: 
<3x3 sparse matrix of type '<type 'numpy.float64'>'
        with 6 stored elements in Compressed Sparse Column format>

In [46]: pd.SparseDataFrame([ pd.SparseSeries(m[i].toarray().ravel()) 
                              for i in np.arange(m.shape[0]) ])
Out[46]: 
   0  1  2
0  1  0  4
1  0  0  5
2  2  3  6

In [47]: df = pd.SparseDataFrame([ pd.SparseSeries(m[i].toarray().ravel()) 
                                   for i in np.arange(m.shape[0]) ])

In [48]: type(df)
Out[48]: pandas.sparse.frame.SparseDataFrame

类似资料：

2.5. SciPy 中稀疏矩阵

2.5.1 介绍 (密集) 矩阵是: 数据对象存储二维值数组的数据结构重要特征: 一次分配所有项目的内存通常是一个连续组块，想一想Numpy数组快速访问个项目(*) 2.5.1.1 为什么有稀疏矩阵？内存，增长是n**2 小例子（双精度矩阵）: In [2]: import numpy as np import matplotlib.pyplot as plt x = np.li
熊猫稀疏dataFrame到稀疏矩阵，而不在内存中生成密集矩阵

问题内容：有没有一种方法可以从a转换为，而不会在内存中生成密集矩阵？不起作用，因为它生成一个密集矩阵，该矩阵被强制转换为。提前致谢！问题答案：熊猫文档讨论了将稀疏稀疏性实验转换为SparseSeries.to_coo： http://pandas-docs.github.io/pandas-docs-travis/sparse.html#interaction-with- scipy-s
稀疏矩阵(Sparse Matrix)

稀疏矩阵(Sparse Matrix) 注：压缩存储的矩阵可以分为特殊矩阵和稀疏矩阵。对于那些具有相同元素或零元素在矩阵中分布具有一定规律的矩阵，被称之为特殊矩阵。对于那些零元素数据远远多于非零元素数目，并且非零元素的分布没有规律的矩阵称之为稀疏矩阵。 1. 稀疏矩阵的概念在矩阵中，若数值为0的元素数目远远多于非0元素的数目时，则称该矩阵为稀疏矩阵。与之相反，若非0元素数目占大多数时，则称该矩阵
用pyspark并行scipy-csr稀疏矩阵实现大矩阵乘法

我正在计算两大组向量（具有相同特征）之间的余弦相似度。每组向量表示为一个scipy CSR稀疏矩阵a和B。我想计算一个x B^T，它不会稀疏。但是，我只需要跟踪超过某个阈值的值，例如0.8。我正试图用vanilla RDD在Pyspark中实现这一点，目的是使用为scipy CSR矩阵实现的快速向量操作。 A和B的行是标准化的，所以为了计算余弦相似度，我只需要找到A中每一行与B中每一行的点积。A的
使用SciPy / Numpy在Python中连接稀疏矩阵

问题内容：使用SciPy / Numpy在Python中连接稀疏矩阵的最有效方法是什么？在这里，我使用以下内容：我想在回归中使用两个预测变量，但是当前格式显然不是我想要的格式。是否有可能获得以下信息：它太大，无法转换为深格式。问题答案：您可以使用来连接行数相同的稀疏矩阵（水平串联）：同样，您可以用于将具有相同列数的稀疏矩阵进行串联（垂直串联）。使用或将创建带有两个稀疏矩阵对象的数组
稀疏矩阵行列式

我正在实现一个稀疏矩阵类，使用映射向量来存储数据（映射表示矩阵的一行，其中键是列的索引，值是该位置的maitrix的值）我已经编写了计算行列式的函数，但我不知道是否有一种方法可以计算这种节省的时间（因为矩阵是稀疏的，大多数值为零）在这里我的实现：这是类接口我计算行列式的方式是什么？假设运算符（）以这种方式重载提前感谢您的帮助

相关阅读

C语言实现稀疏矩阵在HDF5（PyTables）中存储Numpy稀疏矩阵 Python使用稀疏矩阵节省内存实例 C++ 数据结构之对称矩阵及稀疏矩阵的压缩存储 C++ 实现稀疏矩阵的压缩存储的实例

相关文章

Elasticsearch填充强化学习：稀疏奖励（Reward Shaping，Curiosity，Curriculum Learning）R语言矩阵 NumPy矩阵乘法 NumPy Matrix矩阵库

相关问答

Numpy：智能矩阵乘法到稀疏结果矩阵稀疏矩阵的最小分量划分使用scipy.sparse从pandas数据帧创建稀疏矩阵将稀疏矩阵与Keras和Tensorflow结合使用 numpy矩阵乘法到三角形/稀疏存储？

相关工具

熊猫Flash播放器 SciPy Scipy-lecture-notes 猫国建设者红猫软路由

相关文档

Scipy 中文教程 SciPy Cookbook 中文版 SciPy Lecture Notes 中文版变现猫接入文档 v1.4 从零开始学 ReactJS