当前位置: 首页 > 面试题库 >

多处理中的共享内存

干浩阔
2023-03-14
问题内容

我有三个大名单。前一个包含位数组(模块位数组0.8.0),另外两个包含整数数组。

l1=[bitarray 1, bitarray 2, ... ,bitarray n]
l2=[array 1, array 2, ... , array n]
l3=[array 1, array 2, ... , array n]

这些数据结构占用相当多的RAM(总计约16GB)。

如果我使用以下方法启动12个子流程:

multiprocessing.Process(target=someFunction, args=(l1,l2,l3))

这是否意味着将为每个子流程复制l1,l2和l3,或者子流程将共享这些列表?或者更直接地说,我将使用16GB还是192GB的RAM?

someFunction将从这些列表中读取一些值,然后根据读取的值执行一些计算。结果将返回到父进程。列表l1,l2和l3不会被someFunction修改。

因此,我假设子流程不需要并且不会复制这些庞大的列表,而只会与父级共享它们。意味着由于linux下的写时复制方法,该程序将占用16GB的RAM(无论我启动了多少个子进程)?我是对的还是我遗漏了一些会导致列表被复制的东西?

编辑
:在阅读了有关该主题的更多内容后,我仍然感到困惑。一方面,Linux使用写时复制,这意味着没有数据被复制。另一方面,访问对象将更改其引用计数(我仍然不确定为什么以及这意味着什么)。即使这样,会复制整个对象吗?

例如,如果我定义someFunction如下:

def someFunction(list1, list2, list3):
    i=random.randint(0,99999)
    print list1[i], list2[i], list3[i]

使用此功能是否意味着将为每个子流程完全复制l1,l2和l3?

有办法检查吗?

EDIT2 在多了一点并监视子进程运行时系统的总内存使用情况之后,似乎确实为每个子进程复制了整个对象。这似乎是因为引用计数。

在我的程序中,实际上不需要l1,l2和l3的引用计数。这是因为l1,l2和l3将保留在内存中(不变),直到父进程退出。在此之前,无需释放这些列表使用的内存。实际上,我可以肯定的是,在程序退出之前,引用计数将保持高于0(对于这些列表和这些列表中的每个对象)。

所以现在的问题变成了,我如何确保对象不会复制到每个子流程?我是否可以禁用这些列表以及这些列表中每个对象的引用计数?

EDIT3
只是一个附加说明。子进程并不需要修改l1l2l3或在这些列表中的任何对象。子流程仅需要能够引用其中一些对象,而无需为每个子流程复制内存。


问题答案:

一般来说,共有两种数据共享方式:

Python的多线程不适用于受CPU约束的任务(由于GIL),因此在这种情况下,通常的解决方案是继续multiprocessing。但是,使用此解决方案,您需要使用multiprocessing.Value和显式共享数据multiprocessing.Array

注意,由于所有同步问题,通常在进程之间共享数据可能不是最佳选择。通常,涉及参与者交换消息的方法是更好的选择。另请参阅Python文档:

如上所述,在进行并行编程时,通常最好尽可能避免使用共享状态。使用多个进程时尤其如此。

但是,如果确实需要使用某些共享数据,则多处理提供了两种方法。

在您的情况下,您需要包装l1l2l3以某种可以理解的方式multiprocessing(例如通过使用multiprocessing.Array)进行包装,然后将它们作为参数传递。
还要注意,正如您所说的那样,您不需要写访问权限,那么您应该lock=False在创建对象时通过,否则所有访问仍将被序列化。



 类似资料:
  • 问题内容: 第一个问题是Value和Manager()。Value有什么区别? 其次,是否可以不使用Value共享整数变量?下面是我的示例代码。我想要的是获取一个整数值而不是Value的字典。我所做的就是在此过程之后全部更改。有没有更简单的方法? 问题答案: 使用时,您会在共享内存中获得一个对象,默认情况下,该对象使用进行同步。使用该对象时,您将得到一个控制服务器进程的对象,该服务器进程允许对象值

  • 问题内容: 多重处理是python中的强大工具,我想更深入地了解它。我想知道何时使用 常规的 锁和队列,何时使用多处理管理器在所有进程之间共享它们。 我提出了以下测试方案,其中包含四种不同的条件进行多处理: 使用池和 NO Manager 使用池和管理器 使用单个流程和 NO Manager 使用单个流程和一个经理 工作 所有条件都执行作业功能。包括一些通过锁固定的打印件。此外,该函数的输入只是放

  • 问题内容: 请考虑以下代码: 这给出了输出 但是,我希望它能给 ..因为在调用触发方法时h.id已更改为“ B”。 似乎是在启动单独的进程时创建了主机实例的副本,因此原始主机中的更改不会影响该副本。 在我的项目中(当然,要更详细地说明),主机实例字段有时会更改,并且由在单独的进程中运行的代码触发的事件可以访问这些更改很重要。 问题答案: 多处理在不同的 流程中 运行东西。事物在发送时 不被 复制几

  • 问题内容: 我正在Python中进行多处理实验,并试图在两个进程之间共享一个字符串数组。这是我的python代码: 运行脚本时,我看到该脚本已正确填充,并且可在中找到,但不能在中找到。结果如下: 我忽略了什么吗? 预先感谢您的反馈。:) 问题答案: 我的猜测是: 存储3个指针。将它们分配给当前进程之外没有意义的内存地址。尝试访问此时包含垃圾邮件的无意义地址。 分配对所有过程都有意义的值似乎有帮助:

  • 问题内容: 我有一个类似大型的对象,需要在多个工作进程之间共享。每个工作人员读取对象中信息的随机子集,并对其进行一些计算。我想避免复制大对象,因为我的机器很快耗尽了内存。 我正在处理此SO问题的代码,并对其进行了一些修改以使用固定大小的进程池,该池更适合于我的用例。然而,这似乎打破了它。 输出是 如您所见,在第一种情况下,所有工作进程都获得相同的对象(按ID)。在第二种情况下,id不相同。这是否意

  • 问题内容: 我想在共享内存中使用一个numpy数组,以便与多处理模块一起使用。困难是像numpy数组一样使用它,而不仅仅是ctypes数组。 这将产生如下输出: 可以ctypes方式访问该数组,例如arr[i]说得通。但是,它不是一个numpy数组,因此我无法执行,或。我想一个解决方案是将数组转换为数组。但是(除了无法完成这项工作外),我不相信会再共享它。 对于必须解决的常见问题,似乎将有一个标准