好的--如果您想尽可能多地使用雪花平台的功能(下推优化),那么您首先需要尽可能高效地将数据输入到雪花中,然后针对它运行SQL查询(联接、筛选、聚合器等)。使用COPY将S3/Azure/Google文件移动到雪花表中,然后针对这些表运行insert...SELECT。
没有理由创建外部表,如果这样做,它的性能将比我提出的方法差得多。
外部表。简短说明
我无法从亚马逊S3桶加载雪花中的外部表。外部表创建成功,但在运行select命令时,不会返回任何内容。奇怪的是COPY into命令对雪花中的同一个表起作用。 谢谢,纳维德
我使用的是spark 2.4.7和spark-snowflake 2.8.4,以及snowflake jdbc 3.12.17。我在Mac OS X Big Sur上。这发生在我升级到大苏尔之后,尽管我不确定这是否有关系。 我试过: 将bouncy castle提供程序作为包依赖项添加到我的配置中 检查是否指向Java 8(它确实指向) 重新安装java 8(使用homebrew和adoptope
有没有人知道这样的特性、可能性或变通方法?谢谢!
我正在做一些POC来从Databrics中的dataframe中加载雪花表。我已经成功地加载了表,但是它改变了表的结构。 请注意,主键约束消失了,FNT_DT_PK字段不再为not NULL,最后,每个VARCHAR字段的数据类型长度都更改为16777216。 我在Databricks中的python代码非常简单: 你知道为什么在雪花中改变了表的结构吗?
我有一个共享的谷歌电子表格。工作表的某些列必须填充数据库服务器(PostgreSQL)中存在的数据(SQL查询)。 此外,必须计划自动完成数据加载(例如,每天1点)。 最后,我需要在电子表格中进行一些调整(例如,加载后,将日期时间放在工作表的名称中或发送确认电子邮件等) 实现这一目标的最佳和最简单的方法是什么?(我开始查看Google应用程序脚本和Google Sheets API,但不确定哪个更