以矢量化方式连接给定范围的开始，结束编号的范围数组-NumPy

邵诚

2023-03-14

问题内容：

我有两个感兴趣的矩阵，第一个是“单词袋”矩阵，有两列：文档ID和术语ID。例如：

bow[0:10]

Out[1]:
    array([[ 0, 10],
           [ 0, 12],
           [ 0, 19],
           [ 0, 20],
           [ 1,  9],
           [ 1, 24],
           [ 2, 33],
           [ 2, 34],
           [ 2, 35],
           [ 3, 2]])

另外，我有一个“索引”矩阵，其中矩阵的每一行都包含单词袋矩阵中给定文档ID的第一行和最后一行的索引。例如：第0行是文档ID 0的第一个和最后一个索引。例如：

index[0:4]

Out[2]:
    array([[ 0,  4],
           [ 4,  6],
           [ 6,  9],
           [ 9, 10]])

我想做的是随机抽取文档ID的样本，并获取这些文档ID的所有单词行。单词袋矩阵大约有1.5亿行（〜1.5Gb），因此使用numpy.in1d（）太慢了。我们需要迅速将它们退还，以用于下游任务。

我想出的天真的解决方案如下：

def get_rows(ids):
    indices = np.concatenate([np.arange(x1, x2) for x1,x2 in index[ids]])
    return bow[indices]

get_rows([4,10,3,5])

通用样本

提出问题的通用示例将是这样的-

indices = np.array([[ 4, 7],
                    [10,16],
                    [11,18]]

预期的输出将是-

array([ 4,  5,  6, 10, 11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 16, 17])

问题答案：

认为我终于用cumsum向量化解决方案的技巧破解了它-

def create_ranges(a):
    l = a[:,1] - a[:,0]
    clens = l.cumsum()
    ids = np.ones(clens[-1],dtype=int)
    ids[0] = a[0,0]
    ids[clens[:-1]] = a[1:,0] - a[:-1,1]+1
    out = ids.cumsum()
    return out

样品运行-

In [416]: a = np.array([[4,7],[10,16],[11,18]])

In [417]: create_ranges(a)
Out[417]: array([ 4,  5,  6, 10, 11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 16, 17])

In [425]: a = np.array([[-2,4],[-5,2],[11,12]])

In [426]: create_ranges(a)
Out[426]: array([-2, -1,  0,  1,  2,  3, -5, -4, -3, -2, -1,  0,  1, 11])

如果给定开始和停止两个1D数组，则只需要使用它们代替第一列和第二列即可。为了完整起见，这是完整的代码-

def create_ranges(starts, ends):
    l = ends - starts
    clens = l.cumsum()
    ids = np.ones(clens[-1],dtype=int)
    ids[0] = starts[0]
    ids[clens[:-1]] = starts[1:] - ends[:-1]+1
    out = ids.cumsum()
    return out

以矢量化方式连接给定范围的开始，结束编号的范围数组-NumPy

相关阅读

相关文章

相关问答

相关工具

相关文档