我正试图从azure blob存储中加载数据到delta lake。我正在使用下面的代码段
storage_account_name=“xxxxxxxxdev”storage_account_access_key=“xxxxxxxxxxxxxxxxxx”
file_location=“wasbs://bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.net/fshc/dim/fshc_dim_sbu”
file_type=“csv”
spark.conf.set(“fs.azure.account.key”+storage_account_name+“.blob.core.windows.net”,storage_account_access_key)
df=spark.read.format(file_type).option(“header”,“true”).option(“inferschema”,“true”).option(“delimiter”,“'').load(file_location)
dx=df.write.format(“拼花地板”)
dx.write.format(“delta”).save(file_location)
错误:AttributeError:“DataFrameWriter”对象没有属性“Write”
附言。-我是否将文件位置错误地传递到write语句中?如果这是原因,那么delta Lake的文件路径是什么。
如果需要更多的信息,请回复给我。
谢谢,Abhirup
dx是一个dataframewriter,所以您试图做的事情没有意义。你可以这样做:
df = spark.read.format(file_type).option("header","true").option("inferSchema", "true").option("delimiter", '|').load(file_location)
df.write.format("parquet").save()
df.write.format("delta").save()
我需要从Google Cloud Storage(GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程,将数据加载到BigQuery中,并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业,并在稍后的时间点检查了作业状态。由于我有100个表,需要创建一个监控系统来检查作业
我正在尝试使用 azure databricks scala 将数据从 blob 存储加载到 SQL 数据仓库中。 我收到这个错误 潜在的SQLException:-com.microsoft.sqlserver.jdbc.SQLServerException:由于内部错误,外部文件访问失败:“访问HDFS时发生错误:Java调用HdfsBridge_IsDirExist时引发的异常。Java异常
我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我已经很好地理解了Hadoop组件,如NamedNode、DataNode、Job Tracker、Task Tracker,以及它们如何协同工作以高效的方式存储数据。 null
我需要将存在于Web链接上的数据上传到hdfs,例如“博客”。 现在,我正在寻找实现这一目标的选项,可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读,我不清楚如何设置水槽源来指向博客内容所在的网站。 根据我对 fluem 文档的理解,需要有网络服务器
如何将 avro 文件从 Blob 存储加载到 Azure 数据工厂 移动数据流?我正在尝试加载,但无法导入架构和预览。我在 Blob 中的 avro 文件是事件中心捕获函数的结果。我必须使用 Azure 数据工厂的移动数据流将数据从 Azure blob 移动到 Azure sql db。
我有一个 json 文件存储在 Azure Blob 存储中,并且已使用数据工厂将其加载到 Azure SQL 数据库中。现在我想找到一种方法,以便仅将文件的新记录加载到我的数据库(因为文件每周左右更新一次)。有没有办法做到这一点? 谢谢!