从FTP python读取缓冲区中的文件

师谦

2023-03-14

问题内容：

我正在尝试从FTP服务器读取文件。该文件是一个.gz文件。我想知道在套接字打开的情况下是否可以对此文件执行操作。我试图按照什么分两个问题，提到的阅读文件，而不写入磁盘和读取从FTP文件，而无需下载，但没有成功。

我知道如何提取下载文件上的数据/工作，但不确定是否可以即时执行。有没有一种方法可以连接到站点，在缓冲区中获取数据，还可以提取某些数据并退出？

尝试StringIO时出现错误：

>>> from ftplib import FTP
>>> from StringIO import StringIO
>>> ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz')

Traceback (most recent call last):
File "<pyshell#2>", line 1, in <module>
ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz')
File "C:\Python27\lib\ftplib.py", line 117, in __init__
self.connect(host)
File "C:\Python27\lib\ftplib.py", line 132, in connect
self.sock = socket.create_connection((self.host, self.port), self.timeout)
File "C:\Python27\lib\socket.py", line 553, in create_connection
for res in getaddrinfo(host, port, 0, SOCK_STREAM):
gaierror: [Errno 11004] getaddrinfo failed

我只需要知道如何将数据放入某个变量并在其上循环，直到读取FTP中的文件即可。

感谢您的宝贵时间和帮助。谢谢！

问题答案：

确保首先登录ftp服务器。之后，使用retrbinary以二进制模式提取文件。它在文件的每个块上使用回调。您可以使用它来将其加载到字符串中。

from ftplib import FTP
ftp = FTP('ftp.ncbi.nlm.nih.gov')
ftp.login() # Username: anonymous password: anonymous@

# Setup a cheap way to catch the data (could use StringIO too)
data = []
def handle_binary(more_data):
    data.append(more_data)

resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary)
data = "".join(data)

优点：如何在使用字符串时解压缩字符串？

简易模式，使用上面的数据字符串

import gzip
import StringIO
zippy = gzip.GzipFile(fileobj=StringIO.StringIO(data))
uncompressed_data = zippy.read()

更好一点，完整的解决方案 ：

from ftplib import FTP
import gzip
import StringIO

ftp = FTP('ftp.ncbi.nlm.nih.gov')
ftp.login() # Username: anonymous password: anonymous@

sio = StringIO.StringIO()
def handle_binary(more_data):
    sio.write(more_data)

resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary)
sio.seek(0) # Go back to the start
zippy = gzip.GzipFile(fileobj=sio)

uncompressed = zippy.read()

实际上，即时进行解压缩会更好，但是我看不到使用内置库实现压缩的方法（至少不容易）。

从FTP python读取缓冲区中的文件

相关阅读

相关文章

相关问答

相关工具

相关文档