使用boto3和回调跟踪S3文件的下载进度

徐奇逸

2023-03-14

问题内容：

我正在尝试使用boto3从S3下载文本文件。

这是我写的。

class ProgressPercentage(object):
    def __init__(self, filename):
        self._filename = filename
        self._size = float(os.path.getsize(filename))
        self._seen_so_far = 0
        self._lock = threading.Lock()

    def __call__(self, bytes_amount):
        # To simplify we'll assume this is hooked up
        # to a single filename.
        with self._lock:
            self._seen_so_far += bytes_amount
            percentage = round((self._seen_so_far / self._size) * 100,2)
            LoggingFile('{} is the file name. {} out of {} done. The percentage completed is {} %'.format(str(self._filename), str(self._seen_so_far), str(self._size),str(percentage)))
            sys.stdout.flush()

我用它来称呼它

transfer.download_file(BUCKET_NAME,FILE_NAME,'{}{}'.format(LOCAL_PATH_TEMP , FILE_NAME),callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))

这给我一个错误，指出该文件夹中没有该文件。显然，当我已经在同一文件夹中拥有此名称的文件时，它可以工作，但是当我下载新文件时，它会出错。

我需要进行什么纠正？

问题答案：

callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))创建一个ProgressPercentage对象，运行其__init__方法，然后将该对象传递callback给该download_file方法。这意味着该__init__方法
在 download_file开始之前运行。

在该__init__方法中，您尝试读取要下载到的本地文件的大小，这将引发异常，因为该文件不存在，因为下载尚未开始。如果您已经下载了文件，那么没有问题，因为存在本地副本并且可以读取其大小。

当然，这仅仅是您所看到的异常的原因。您正在使用该_size属性作为下载进度的最大值。但是，您尝试使用本地文件的大小。在文件完全下载之前，本地文件系统不知道文件有多大，它仅知道当前占用了多少空间。这意味着在您下载文件时，文件将逐渐变大，直到达到其完整大小。因此，将本地文件的大小视为下载的最大大小并没有任何意义。在您已经下载文件的情况下，它可能会起作用，但这不是很有用。

解决问题的方法是检查要下载的文件的大小，而不是本地副本的大小。这样可以确保您获得要下载的文件的实际大小，并且该文件存在（因为如果不下载，则无法下载）。您可以通过获取远程文件的大小与做head_object如下

class ProgressPercentage(object):
    def __init__(self, client, bucket, filename):
        # ... everything else the same
        self._size = client.head_object(Bucket=bucket, Key=filename).ContentLength

    # ...

# If you still have the client object you could pass that directly 
# instead of transfer._manager._client
progress = ProgressPercentage(transfer._manager._client, BUCKET_NAME, FILE_NAME)
transfer.download_file(..., callback=progress)

最后一点，尽管您从Boto3文档中获得了代码，但该代码不起作用，因为它是用于文件上传的。在这种情况下，本地文件是源文件并保证其存在。

使用boto3和回调跟踪S3文件的下载进度

相关阅读

相关文章

相关问答

相关工具

相关文档