当前位置: 首页 > 知识库问答 >
问题:

雪花复制到并行拼花文件加载

郭皓
2023-03-14

我如何一次加载5年的拼花数据并复制到一个表中?因为1个月的负荷比我1.5个小时,5年就要花我90个小时。如果有可能并行加载?我该怎么做呢?

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT ($1:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

共有1个答案

宋康安
2023-03-14

获取您拥有的文件数量(希望它们在很多很多文件中),并调整您的仓库的大小,以便在一个COPY INTO语句中加载它们。假设您将一个仓库专用于一个COPY INTO语句,它将能够在每个节点并行加载8个文件。1个节点是XS,2个节点是S,4个节点是介质,从那里加倍。

如果您每1个月提供一些文件,您使用了多大的仓库,那么我可以帮助您更准确地调整大小,但关键是在1个COPY INTO语句中完成所有操作...并对每个大小的8个文件/node*#节点进行数学计算。

 类似资料:
  • 使用Python 3.6在Amazon EMR集群(1个主节点,2个节点)上运行Spark 2.4.2 我正在Amazon s3中读取对象,将其压缩为拼花格式,并将其添加(附加)到现有的拼花数据存储中。当我在pyspark shell中运行代码时,我能够读取/压缩对象,并将新的拼花文件添加到现有的拼花文件中,当我对拼花数据运行查询时,它显示所有数据都在拼花文件夹中。但是,当我在EMR集群上的步骤中

  • 文件格式定义: 阶段定义:

  • 如何使用pyarrow向拼花地板文件添加/更新? 我在文档中找不到任何关于附加拼花文件的内容。此外,您是否可以将pyarrow与多处理一起使用来插入/更新数据。

  • 我是Spark的新手。我尝试在本地模式(windows)下使用spark java将csv文件保存为parquet。我得到了这个错误。 原因:org.apache.spark.Spark异常:写入行时任务失败 我引用了其他线程并禁用了spark推测 set("spark.speculation "," false ") 我还是会出错。我在csv中只使用了两个专栏进行测试。 输入: 我的代码: 请帮

  • 我正在尝试将外部JSON文件从Azure Blob存储加载到Snowflake。我创建了表LOCATION_DETAILS,所有列都作为variant。当我试图加载到表中时,我得到以下错误: 有人能帮我吗?