问题：

AWS Glue-GlueContext：从S3读取分区数据，将分区添加为DynamicFrame的列

滕璞瑜

2023-03-14

我有一些数据存储在拼花格式的S3存储桶中，遵循类似蜂巢的分区风格，使用这些分区键：零售商-年-月-日。

如

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

我想在sagemaker笔记本中读取所有这些数据，我想将分区作为我的DynamicFrame的列，这样当我df时。printSchema（），包括它们。

如果我使用Glue建议的方法，分区就不会包含在我的模式中。下面是我使用的代码：

df = glueContext.create_dynamic_frame.from_options(
    connection_type='s3',
    connection_options={
        'paths': ['s3://my-bucket/'],
        "partitionKeys": [
            "retailer",
            "year",
            "month",
            "day"
        ]
    },
    format='parquet'
)

相反，通过使用普通的火花代码和DataFrame类，它可以工作，并且分区包含在我的架构中：

df=spark.read.parquet（'s3：//my-桶/'）.

我想知道是否有办法用AWS Glue的特定方法来做到这一点。

共有1个答案

洪国兴

2023-03-14

也许您可以尝试对数据进行爬网，并使用from\u catalog选项读取数据。虽然我认为你不需要提及分区键，因为它应该看到=意味着它是一个分区。特别是考虑到胶水只是火花的包装

类似资料：

Spark-从S3读取分区数据-分区是如何发生的？

当我使用Spark从S3读取多个文件时(例如，一个包含许多Parquet文件的目录)- 逻辑分区是在开始时发生，然后每个执行器直接下载数据(在worker节点上)吗？< br >还是驱动程序下载数据(部分或全部)，然后进行分区并将数据发送给执行器？此外，分区是否默认为用于写入的相同分区(即每个文件= 1个分区)？
优化从s3 bucket中分区拼花文件的读取

我有一个拼花格式的大数据集（大小约1TB），分为2个层次：
数据分区

Redisson 仅在集群模式中支持数据分区(分片)。它使得可以使用整个 Redis 集群的内存而不是单个节点的内存来存储单个数据结构实例。 Redisson 默认将数据结构切分为 231 个槽。槽的数量可在 3 和 16834 之间。槽会一致地分布在所有的集群节点上。这意味着每个节点将包含近似相等数量的槽。如默认槽量(231) 和 4 个节点的情况，每个节点将包含接近 57 个数据分区，而对
spark在S3上的分区内创建分区

我有以下制表符分隔的示例数据集：我正在对此数据运行一些转换，最终数据位于spark dataset中。之后，我用“period”分区将该数据集写入s3。因为我也希望在s3文件中使用period,所以我正在从from period列创建另一列“datasetperiod”。我的scala函数来保存TSV数据集。在S3上保存数据集的Scala代码。为S3上的分区添加新列datasetPeriod
将spark数据拆分为分区并将这些分区并行写入磁盘

问题概要：假设我有300 GB的数据正在AWS中的EMR集群上用火花处理。这些数据有三个属性，用于在Hive中使用的文件系统上进行分区：日期、小时和（比方说）另一个。我想以最小化写入文件数量的方式将此数据写入fs。我现在正在做的是获取日期、小时、另一个时间的不同组合，以及有多少行构成组合的计数。我将它们收集到驱动程序上的列表中，并遍历列表，为每个组合构建一个新的DataFrame，使用行数重新分
从分区拼花文件读取DataFrame

如何读取带有条件作为数据帧的分区镶木地板，这工作得很好，分区存在的时间为< code>day=1到day=30是否可能读取类似于< code>(day = 5到6)或< code>day=5，day=6的内容，如果我输入< code>*,它会给出所有30天的数据，而且太大了。

AWS Glue-GlueContext：从S3读取分区数据，将分区添加为DynamicFrame的列

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档