使用python将数据块数据帧写入S3

魏硕

2023-03-14

我有一个名为df的数据库数据帧。我想将它作为csv文件写入S3存储桶。我有S3存储桶名称和其他凭据。我检查了这里给出的在线留档https://docs.databricks.com/spark/latest/data-sources/aws/amazon-s3.html#mount-aws-s3它说使用以下命令

dbutils.fs.mount(s"s3a://$AccessKey:$SecretKey@$AwsBucketName", s"/mnt/$MountName", "sse-s3")

dbutils.fs.put(s"/mnt/$MountName", "<file content>")

但我有的是数据帧，而不是文件。怎么才能实现？

共有1个答案

商飞航

2023-03-14

我有同样的问题。我找到了两个解决方案

1开始

df
.write \
.format("com.databricks.spark.csv") \
.option("header", "true") \
.save("s3a://{}:{}@{}/{}".format(ACCESS_KEY, SECRET_KEY, BUCKET_NAME, DIRECTORY)))

非常有效。

第二

您确实可以挂载一个S3 Bucket，然后像这样直接向其写入一个文件：

#### MOUNT AND READ S3 FILES
AWS_BUCKET_NAME = "your-bucket-name"
MOUNT_NAME = "a-directory-name"
dbutils.fs.mount("s3a://%s" % AWS_BUCKET_NAME, "/mnt/%s" % MOUNT_NAME)
display(dbutils.fs.ls("/mnt/%s" % MOUNT_NAME))

#### WRITE FILE 

df.write.save('/mnt/{}/{}'.format(MOUNT_NAME, "another-directory-name"), format='csv')

这也将同步到您的S3桶。

类似资料：

使用python/pandas将数据帧写入google工作表

我正在使用谷歌工作表来保存共享项目的数据。我使用Google的Sheets API访问数据，用python处理数据，并尝试在function writer中使用batchUpdate更新Sheets文件。如果我将此函数数据作为列表传递，它将按预期工作 GoogleapClient。错误。HttpError：任何指点都将不胜感激。
使用Python将数据写入snowflake
使用python将avro数据写入kafka

显然它无法解码数据。有什么想法吗？
如何将Spark数据帧写入Neo4j数据库

null 非常感谢任何指向文档或非常基本的示例的指针。
将大熊猫数据帧分块写入CSV文件

问题内容：如何将大数据文件分块写入CSV文件？我有一组大型数据文件（1M行x 20列）。但是，我只关注该数据的5列左右。我想通过只用感兴趣的列制作这些文件的副本来使事情变得更容易，所以我可以使用较小的文件进行后期处理。因此，我计划将文件读取到数据帧中，然后写入csv文件。我一直在研究将大数据文件以块的形式读入数据框。但是，我还无法找到有关如何将数据分块写入csv文件的任何信息。这是我现在
将pandas数据帧写入CSV文件

我在pandas中有一个数据帧，我想把它写到CSV文件中。我使用的是：并得到错误：有没有什么方法可以很容易地解决这个问题（例如，我的数据帧中有unicode字符）？还有，有没有一种方法可以使用“to-tab”方法（我认为不存在）写入以制表符分隔的文件，而不是CSV？

使用python将数据块数据帧写入S3

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档