雪花复制到并行拼花文件加载

郭皓

2023-03-14

我如何一次加载5年的拼花数据并复制到一个表中？因为1个月的负荷比我1.5个小时，5年就要花我90个小时。如果有可能并行加载？我该怎么做呢？

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT ($1:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

共有1个答案

宋康安

2023-03-14

获取您拥有的文件数量（希望它们在很多很多文件中），并调整您的仓库的大小，以便在一个COPY INTO语句中加载它们。假设您将一个仓库专用于一个COPY INTO语句，它将能够在每个节点并行加载8个文件。1个节点是XS，2个节点是S，4个节点是介质，从那里加倍。

如果您每1个月提供一些文件，您使用了多大的仓库，那么我可以帮助您更准确地调整大小，但关键是在1个COPY INTO语句中完成所有操作...并对每个大小的8个文件/node*#节点进行数学计算。

类似资料：

附加到拼花文件的EMR Spark步骤正在覆盖拼花文件

使用Python 3.6在Amazon EMR集群（1个主节点，2个节点）上运行Spark 2.4.2 我正在Amazon s3中读取对象，将其压缩为拼花格式，并将其添加（附加）到现有的拼花数据存储中。当我在pyspark shell中运行代码时，我能够读取/压缩对象，并将新的拼花文件添加到现有的拼花文件中，当我对拼花数据运行查询时，它显示所有数据都在拼花文件夹中。但是，当我在EMR集群上的步骤中
如何从多个表复制到？？雪花

null
复制到雪花表不加载数据-没有错误

文件格式定义：阶段定义：
使用pyrow如何附加到拼花文件？

如何使用pyarrow向拼花地板文件添加/更新？我在文档中找不到任何关于附加拼花文件的内容。此外，您是否可以将pyarrow与多处理一起使用来插入/更新数据。
保存为拼花文件在火花java

我是Spark的新手。我尝试在本地模式(windows)下使用spark java将csv文件保存为parquet。我得到了这个错误。原因：org.apache.spark.Spark异常：写入行时任务失败我引用了其他线程并禁用了spark推测 set("spark.speculation "，" false ") 我还是会出错。我在csv中只使用了两个专栏进行测试。输入：我的代码: 请帮
我们可以将外部JSON文件复制到雪花中吗？

我正在尝试将外部JSON文件从Azure Blob存储加载到Snowflake。我创建了表LOCATION_DETAILS，所有列都作为variant。当我试图加载到表中时，我得到以下错误：有人能帮我吗？

雪花复制到并行拼花文件加载

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档