如何在多处理器系统上生成并行子进程？

袁运锋

2023-03-14

问题内容：

我有一个Python脚本，想用作另一个Python脚本的控制器。我有一台具有64个处理器的服务器，因此想生成第二个Python脚本的64个子进程。子脚本称为：

$ python create_graphs.py --name=NAME

NAME是XYZ，ABC，NYU等。

在我的父控制器脚本中，我从列表中检索name变量：

my_list = [ 'XYZ', 'ABC', 'NYU' ]

所以我的问题是，从小就产生这些过程的最佳方法是什么？我想一次将子级的数量限制为64个，因此需要跟踪状态（子级进程是否完成），以便有效地保持整个世代的运行。

我研究了使用子进程包，但拒绝了它，因为它一次只生一个孩子。我终于找到了多处理器程序包，但我承认整个线程与子进程文档不堪重负。

现在，我的脚本用于一次subprocess.call只生一个孩子，看起来像这样：

#!/path/to/python
import subprocess, multiprocessing, Queue
from multiprocessing import Process

my_list = [ 'XYZ', 'ABC', 'NYU' ]

if __name__ == '__main__':
    processors = multiprocessing.cpu_count()

    for i in range(len(my_list)):
        if( i < processors ):
             cmd = ["python", "/path/to/create_graphs.py", "--name="+ my_list[i]]
             child = subprocess.call( cmd, shell=False )

我真的希望它能一次生下64个孩子。在其他stackoverflow问题中，我看到人们在使用Queue，但这似乎对性能产生了影响？

问题答案：

您正在寻找的是多处理中的进程池类。

import multiprocessing
import subprocess

def work(cmd):
    return subprocess.call(cmd, shell=False)

if __name__ == '__main__':
    count = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=count)
    print pool.map(work, ['ls'] * count)

这是一个计算示例，使它更易于理解。下面将在N个进程上划分10000个任务，其中N是cpu计数。请注意，我将None传递为进程数。这将导致Pool类使用cpu_count作为进程数（参考）

import multiprocessing
import subprocess

def calculate(value):
    return value * 10

if __name__ == '__main__':
    pool = multiprocessing.Pool(None)
    tasks = range(10000)
    results = []
    r = pool.map_async(calculate, tasks, callback=results.append)
    r.wait() # Wait on the results
    print results

如何在多处理器系统上生成并行子进程？

相关阅读

相关文章

相关问答

相关工具

相关文档