当前位置: 首页 > 面试题库 >

子集2D numpy数组

顾炎彬
2023-03-14
问题内容

我在这里研究了文档以及其他问题,但似乎我还没有掌握numpy数组中的子集的窍门。

我有一个numpy数组,为了方便讨论,让它定义如下:

import numpy as np
a = np.arange(100)
a.shape = (10,10)
# array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
#        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
#        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
#        [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
#        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
#        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
#        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
#        [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
#        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

现在我想选择a由vectorn1和指定的行和列n2。举个例子:

n1 = range(5)
n2 = range(5)

但是当我使用时:

b = a[n1,n2]
# array([ 0, 11, 22, 33, 44])

然后,仅选择前五个对角线元素,而不选择整个5x5块。我发现的解决方案是这样做的:

b = a[n1,:]
b = b[:,n2]
# array([[ 0,  1,  2,  3,  4],
#        [10, 11, 12, 13, 14],
#        [20, 21, 22, 23, 24],
#        [30, 31, 32, 33, 34],
#        [40, 41, 42, 43, 44]])

但是我敢肯定,只有一个命令应该有一种方法可以完成这个简单的任务。


问题答案:

您已经获得了许多如何做自己想要的事的好例子。但是,了解正在发生的事情以及事物按其工作方式运作的原因也很有用。有一些简单的规则可以在将来为您提供帮助。

“花式”索引(即使用列表/序列)和“普通”索引(使用切片)之间存在很大差异。根本原因与是否可以“规则地跨越”数组有关,因此与是否需要复制有关。因此,如果我们希望能够不复制而创建“视图”,则必须区别对待任意序列。

在您的情况下:

import numpy as np

a = np.arange(100).reshape(10,10)
n1, n2 = np.arange(5), np.arange(5)

# Not what you want
b = a[n1, n2]  # array([ 0, 11, 22, 33, 44])

# What you want, but only for simple sequences
# Note that no copy of *a* is made!! This is a view.
b = a[:5, :5]

# What you want, but probably confusing at first. (Also, makes a copy.)
# np.meshgrid and np.ix_ are basically equivalent to this.
b = a[n1[:,None], n2[None,:]]

一维序列的花式索引基本上等同于将它们压缩在一起并对其结果进行索引。

print "Fancy Indexing:"
print a[n1, n2]

print "Manual indexing:"
for i, j in zip(n1, n2):
    print a[i, j]

但是,如果您要建立索引的序列与您要建立索引的数组的维数匹配(在这种情况下为2D),则对索引的处理会有所不同。numpy而不是“将两者压缩在一起”,而是像屏蔽一样使用索引。

换句话说,a[[[1, 2, 3]], [[1],[2],[3]]]与完全不同a[[1, 2, 3], [1, 2, 3]],因为您要传递的序列/数组是二维的。

In [4]: a[[[1, 2, 3]], [[1],[2],[3]]]
Out[4]:
array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])

In [5]: a[[1, 2, 3], [1, 2, 3]]
Out[5]: array([11, 22, 33])

更精确一点

a[[[1, 2, 3]], [[1],[2],[3]]]

完全一样地对待:

i = [[1, 1, 1],
     [2, 2, 2],
     [3, 3, 3]])
j = [[1, 2, 3],
     [1, 2, 3],
     [1, 2, 3]]
a[i, j]

换句话说,输入是否为行/列向量是索引应如何在索引中重复的简写。

np.meshgridnp.ix_只是convienent的方式把你的1D序列到他们的2D版本索引:

In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))

同样(该sparse参数将使其与ix_上面相同):

In [7]: np.meshgrid([1, 2, 3], [1, 2, 3], indexing='ij')
Out[7]:
[array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]]),
 array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])]


 类似资料:
  • 我试图获取当前类包装器的可变参数子集,以实例化一个新的变量 目前我有: 我想实现以下目标: 您可以假设每个类型在变量类中只存在一次,并且我将始终请求当前变量类型的子集。我不知道这在C11中是否可行?谢谢你的帮助。

  • 在R中,我有一个列表,由12个子列表组成,每个子列表本身由5个子发布者组成,如下所示 列表和子列表 在本例中,我想为每个子列表提取信息“MSD”。 我可以提取每种使用方法的级别“统计信息” 这很有效。它给了我子列表“statistics”中包含的所有值,但是,对于每个列表,我想向下一级,因为我对其他数据(如MSerror、Df等)不感兴趣。。。。。只有MSD 我试过了 还有许多人没有成功。 如果我

  • 我知道这是子集和问题的一个变体,我也见过类似问题的一些解决方案(带负数的子集和),但我需要用动态规划来解决这个问题。我见过的大多数解决方案都使用递归,而不是DP。 我想我需要一个大小为(n*n*d)的3d布尔表S(I,j,k)。但是S(i,j,k)什么时候为真,什么时候为假?因为我总是需要检查使用k个数计算和的所有可能方法,这些方法既可以是正数,也可以是负数(例如:对于4个数{1,2,3,4},有

  • 检查arr2是否是子集。输入:输出:是的子集 如果我们使用线性探测。哈希表将如下所示:其中第一项是索引(哈希代码),如果您看到元素7,第二项是值。哈希代码是。所以从1开始,它必须通过检查每个bucket来遍历整个哈希表。这里的时间复杂度是O(n) 稍后,我们将使用哈希表搜索中的所有元素。 所以总的时间复杂度将是Len(arr2)*O(n)。 那么散列的好处是什么呢?

  • 我的Ionic 5应用程序中有以下Firestore数据库结构。 书(集合) {bookID}(带有book字段的文档) 赞(子集合) {userID}(文档名称作为带有字段的用户ID) 集合中有文档,每个文档都有一个子集合。Like collection的文档名是喜欢这本书的用户ID。 我正在尝试进行查询以获取最新的,同时尝试从子集合中获取文档以检查我是否喜欢它。 我在这里做的是用每个图书ID调

  • 问题内容: 在不从javascript中的数组进行替换的情况下,获取随机样本的一种干净方法是什么?所以假设有一个数组 我想随机采样5个唯一值;例如,生成一个长度为5的随机子集。要生成一个随机样本,可以执行以下操作: 但是,如果多次执行此操作,则可能会多次捕获同一项。 问题答案: 我建议使用Fisher-Yates混洗混洗数组的副本并进行切片: 请注意,这不是获取大型数组的随机小子集的最有效方法,因