当前位置: 首页 > 知识库问答 >
问题:

用Python编写Google云存储流

袁耀
2023-03-14

我试图将一个用Python编写的AWS lambda函数迁移到

  1. 实时解压缩并逐行读取
  2. 对每一行执行一些光转换
  3. 将未压缩的输出(一次一行或块)写入GCS

输出是>2GB,但略小于3GB,所以它适合lambda

    null

AFAIC,我将坚持AWS lambda,因为输出可以放入内存--就目前而言--但是多部分上传是以最少的内存支持任何输出大小的方法。

想法还是替代方案?

共有1个答案

益阳平
2023-03-14

我把多部分可恢复上传混淆了。后者是“流”所需要的--它实际上更像是上传缓冲流的块。

Multipartupload是在同一个API调用中同时加载数据和自定义元数据。

虽然我非常喜欢GCSFs--Martin,他的主要贡献者非常响应--但我最近发现了一个使用google-revesable-media库的替代方案。

 类似资料:
  • 您好,感谢您的时间和考虑。我正在谷歌云平台/DataLab中开发一个Jupyter笔记本。我已经创建了一个Pandas DataFrame,并希望将此DataFrame写到Google Cloud Storage(GCS)和/或BigQuery中。我在GCS中有一个bucket,并通过以下代码创建了以下对象: 我尝试了基于Google Datalab文档的各种方法,但仍然失败。谢谢

  • 谷歌云存储中的文件更改需要多长时间才能传播? 我遇到了一个非常令人沮丧的问题,我改变了一个文件的内容,并通过gsutil重新上传,但是这个改变几个小时后才显示出来。有没有办法强制一个改变的文件立即传播所有内容? 如果我查看谷歌云存储控制台中的文件,它会看到新文件,但如果我点击公共网址,它是旧版本,在某些情况下,是2个版本前的版本。 有没有我没有设置的标题? 编辑: 我尝试了,但它没有帮助,但也许旧

  • 我正试图将一个spark dataframe写入谷歌云存储。这个数据文件有一些更新,所以我需要一个分区策略。所以我需要把它写进GCS的精确文件中。 gs://bucket_name/table_name/file_name.avro 有谁能帮我做到这一点吗?

  • 我在谷歌云存储桶中有文件。 如何将这些文件设置为Cloudflare CDN的原点? (Cloudflare控制面板似乎只想要根域上的网站...?)

  • 我正在尝试建立一个基于python的基本谷歌应用引擎站点,允许用户将文件上传到谷歌云存储(主要是图像) 我已经阅读了JSON API和GCS客户端库概述(以及blobstore等)的文档,但仍然没有很好地了解哪种方法是最好的以及它们之间的关系。如果有人能概述一下,或者给我指出一些我可以查看的资源,那就太好了 此外,任何相关的示例代码都会非常有用。我已经能够在此处运行上载示例,但不确定它们是否对应用

  • 我在我创建的谷歌云存储上有一个存储桶。我想测试一些内置ACL,如public read、public read write等。但是,一旦我使用gsutil setacl命令更改了ACL,例如: