当前位置: 首页 > 编程笔记 >

Python使用稀疏矩阵节省内存实例

楚望
2023-03-14
本文向大家介绍Python使用稀疏矩阵节省内存实例,包括了Python使用稀疏矩阵节省内存实例的使用技巧和注意事项,需要的朋友参考一下

推荐系统中经常需要处理类似user_id, item_id, rating这样的数据,其实就是数学里面的稀疏矩阵,scipy中提供了sparse模块来解决这个问题,但scipy.sparse有很多问题不太合用:

1、不能很好的同时支持data[i, ...]、data[..., j]、data[i, j]快速切片;
2、由于数据保存在内存中,不能很好的支持海量数据处理。

要支持data[i, ...]、data[..., j]的快速切片,需要i或者j的数据集中存储;同时,为了保存海量的数据,也需要把数据的一部分放在硬盘上,用内存做buffer。这里的解决方案比较简单,用一个类Dict的东西来存储数据,对于某个i(比如9527),它的数据保存在dict['i9527']里面,同样的,对于某个j(比如3306),它的全部数据保存在dict['j3306']里面,需要取出data[9527, ...]的时候,只要取出dict['i9527']即可,dict['i9527']原本是一个dict对象,储存某个j对应的值,为了节省内存空间,我们把这个dict以二进制字符串形式存储,直接上代码:

''' Sparse Matrix ''' import struct import numpy as np import bsddb from cStringIO import StringIO   class DictMatrix():     def __init__(self, container = {}, dft = 0.0):         self._data  = container         self._dft   = dft         self._nums  = 0       def __setitem__(self, index, value):         try:             i, j = index         except:             raise IndexError('invalid index')           ik = ('i%d' % i)         # 为了节省内存,我们把j, value打包成字二进制字符串         ib = struct.pack('if', j, value)         jk = ('j%d' % j)         jb = struct.pack('if', i, value)           try:             self._data[ik] += ib         except:             self._data[ik] = ib         try:             self._data[jk] += jb         except:             self._data[jk] = jb         self._nums += 1       def __getitem__(self, index):         try:             i, j = index         except:             raise IndexError('invalid index')           if (isinstance(i, int)):             ik = ('i%d' % i)             if not self._data.has_key(ik): return self._dft             ret = dict(np.fromstring(self._data[ik], dtype = 'i4,f4'))             if (isinstance(j, int)): return ret.get(j, self._dft)           if (isinstance(j, int)):             jk = ('j%d' % j)             if not self._data.has_key(jk): return self._dft             ret = dict(np.fromstring(self._data[jk], dtype = 'i4,f4'))           return ret       def __len__(self):         return self._nums       def __iter__(

测试代码:


import timeit

timeit.Timer('foo = __main__.data[9527, ...]', 'import __main__').timeit(number = 1000)

消耗1.4788秒,大概读取一条数据1.5ms。
采用类Dict来存储数据的另一个好处是你可以随便用内存Dict或者其他任何形式的DBM,甚至传说中的Tokyo Cabinet….

好了,码完收工。

 类似资料:
  • 问题内容: 有没有一种方法可以从a转换为,而不会在内存中生成密集矩阵? 不起作用,因为它生成一个密集矩阵,该矩阵被强制转换为。 提前致谢! 问题答案: 熊猫文档讨论了将稀疏稀疏性实验转换为SparseSeries.to_coo: http://pandas-docs.github.io/pandas-docs-travis/sparse.html#interaction-with- scipy-s

  • 稀疏矩阵(Sparse Matrix) 注:压缩存储的矩阵可以分为特殊矩阵和稀疏矩阵。对于那些具有相同元素或零元素在矩阵中分布具有一定规律的矩阵,被称之为特殊矩阵。对于那些零元素数据远远多于非零元素数目,并且非零元素的分布没有规律的矩阵称之为稀疏矩阵。 1. 稀疏矩阵的概念 在矩阵中,若数值为0的元素数目远远多于非0元素的数目时,则称该矩阵为稀疏矩阵。与之相反,若非0元素数目占大多数时,则称该矩阵

  • 问题内容: 我有一个很大的csv文件,其中列出了图中节点之间的连接。例: 0001,95784 0001,98743 0002,00082 0002,00091 因此,这意味着节点id 0001连接到节点95784和98743,依此类推。我需要将其读入numpy中的稀疏矩阵。我怎样才能做到这一点?我是python的新手,所以有关此的教程也将有所帮助。 问题答案: 使用scipy的lil_matri

  • 如何在python中找到包含负数的稀疏矩阵的sqrt?和对负数不起作用。我还尝试使用。但它也不起作用。

  • 本文向大家介绍C语言实现稀疏矩阵,包括了C语言实现稀疏矩阵的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了C语言实现稀疏矩阵的具体代码,供大家参考,具体内容如下 效果图: 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。

  • 我正在实现一个稀疏矩阵类,使用映射向量来存储数据(映射表示矩阵的一行,其中键是列的索引,值是该位置的maitrix的值)我已经编写了计算行列式的函数,但我不知道是否有一种方法可以计算这种节省的时间(因为矩阵是稀疏的,大多数值为零)在这里我的实现: 这是类接口 我计算行列式的方式是什么?假设运算符()以这种方式重载 提前感谢您的帮助