使用subprocess.Popen处理大型输出

谢鸿飞

2023-03-14

问题内容：

我有一些Python代码可以执行一个外部应用程序，当该应用程序的输出量很少时，它可以很好地运行，但是在有大量输出时，它会挂起。我的代码如下：

p = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
errcode = p.wait()
retval = p.stdout.read()
errmess = p.stderr.read()
if errcode:
    log.error('cmd failed <%s>: %s' % (errcode,errmess))

文档中有一些注释似乎表明了潜在的问题。等待中，有：

警告：如果子进程向stdout或stderr管道生成足够的输出，从而阻塞等待OS管道缓冲区接受更多数据的输出，则将死锁。使用communicate()避免这种情况。

尽管进行了交流，但我发现：

注意读取的数据缓存在内存中，因此，如果数据大小很大或没有限制，则不要使用此方法。

因此，对我来说不清楚的是，如果我有大量数据，则应使用这两种方法之一。他们没有指出在那种情况下我应该使用哪种方法。

我确实需要exec的返回值，并且要解析并使用stdout和stderr。

那么在Python中执行外部应用程序的等效方法是什么？

问题答案：

您正在阻止对两个文件的读取。第一个需要在第二个开始之前完成。如果应用程序向写入了很多内容stderr，而对却没有写入任何内容stdout，那么您的进程将坐在那里等待stdout不来的数据，而您正在运行的程序坐在那里等待被写入的内容stderr被读取（从不因为-
您正在等待stdout）。

有几种方法可以解决此问题。

最简单的是不拦截stderr;
离开stderr=None。错误将直接输出到stderr。您无法拦截它们并将其显示为您自己的消息的一部分。对于命令行工具，这通常是可以的。对于其他应用程序，这可能是个问题。

另一种简单的方法是重定向stderr到stdout，因此您只有一个传入文件：set
stderr=STDOUT。这意味着您无法将常规输出与错误输出区分开。根据应用程序如何写入输出，这可能会接受也可能无法接受。

处理此问题的完整且复杂的方法是select（http://docs.python.org/library/select.html）。这使您能够以非阻塞方式进行读取：只要数据出现在stdout或上，就可以获取数据stderr。如果确实需要，我只会建议这样做。这可能在Windows中不起作用。

使用subprocess.Popen处理大型输出

相关阅读

相关文章

相关问答

相关工具

相关文档