我正在制作一个小应用程序,将数据从BigQuery导出到google云存储,然后将其复制到aws s3中,但在python中很难找到如何实现。
我已经在kotlin中编写了代码(因为这对我来说是最简单的,原因超出了我的问题范围,我们希望它在python中运行),在kotlin中,google sdk
允许我从Blob
对象获取InputSteam
,然后我可以将其注入AmazonS3SDK的AmazonS3.putObject(String bucketName、String key、InputStream输入、ObjectMetadata元数据)
。
使用
pythonsdk
我似乎只有将文件下载到文件和作为字符串的选项。
我想(就像我在kotlin中做的那样)传递一些从Blob对象返回的对象到Amazon3.putObject()方法中,而不必先将内容保存为文件。
我绝对不是python专业人士,所以我可能错过了一个显而易见的方法。
我最终得到了以下解决方案,因为显然download_to_filename
将数据下载到boto3 s3客户端可以处理的类似文件的对象中。
这对于较小的文件来说效果很好,但由于它将所有文件都缓冲在内存中,因此对于较大的文件来说可能会有问题。
def copy_data_from_gcs_to_s3(gcs_bucket, gcs_filename, s3_bucket, s3_filename):
gcs_client = storage.Client(project="my-project")
bucket = gcs_client.get_bucket(gcs_bucket)
blob = bucket.blob(gcs_filename)
data = BytesIO()
blob.download_to_file(data)
data.seek(0)
s3 = boto3.client("s3")
s3.upload_fileobj(data, s3_bucket, s3_filename)
如果有人有关于BytesIO以外的东西的信息/知识来处理数据(fx。所以我可以直接将数据流到s3,而不必在主机上的内存中缓冲它),这将是非常感激的。
我们一直在使用服务,在(AWS)中,我们意外删除了一个目录,因此我们认为它应该在中,但是经过查看,尽管处于打开状态,但它并不存在。
我正试图使用Python应用编程接口将文件从笔记本中的数据实验室实例上传到我的谷歌存储桶,但我无法解决这个问题。谷歌在其留档中提供的代码示例似乎在数据实验室中不起作用。我目前正在使用gsutil命令,但想了解如何在使用Python应用编程接口时做到这一点。 文件目录(我想上传checkpoints文件夹中的python文件): 当前代码: 目前的工作解决方案:
我正在看新的谷歌云数据存储,看起来很棒。但有件事我不明白。。。它应该替代谷歌应用引擎数据存储吗?我如何在GAE内部使用它?它们之间有什么区别? 我在Java有一个GAE应用程序,它使用3个实体,每个实体都有数千行,我需要经常做连接...
我应该做什么才能成功上传图片?任何帮助都将不胜感激。 非常感谢。
我已经扫描了存储转移文档,但我没有看到这种情况的示例。作为参考,我使用以下脚本--https://github.com/googlecloudplatform/python-docs-samples/blob/master/storage/transfer_service/nearline_request.py 例如,如果我在源桶中有这个文件: 我想给它添加一个前缀,以便它在接收器桶中看起来像这样
追踪下面。 相关的Python片段: 最终触发(从ssl库): 溢出错误:字符串长度超过2147483647字节 我想我缺少一些特殊的配置选项? 这可能与这名1.5岁的年轻人有关,显然他还没有解决问题:https://github.com/googledatalab/datalab/issues/784. 谢谢你的帮助! 完整跟踪: [File”/usr/src/app/gcloud/downlo