当前位置: 首页 > 知识库问答 >
问题:

从azure blob存储将数据加载到delta lake

乐正涵意
2023-03-14

我正试图从azure blob存储中加载数据到delta lake。我正在使用下面的代码段

storage_account_name=“xxxxxxxxdev”storage_account_access_key=“xxxxxxxxxxxxxxxxxx”

file_location=“wasbs://bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.net/fshc/dim/fshc_dim_sbu”

file_type=“csv”

spark.conf.set(“fs.azure.account.key”+storage_account_name+“.blob.core.windows.net”,storage_account_access_key)

df=spark.read.format(file_type).option(“header”,“true”).option(“inferschema”,“true”).option(“delimiter”,“'').load(file_location)

dx=df.write.format(“拼花地板”)

dx.write.format(“delta”).save(file_location)

错误:AttributeError:“DataFrameWriter”对象没有属性“Write”

附言。-我是否将文件位置错误地传递到write语句中?如果这是原因,那么delta Lake的文件路径是什么。

如果需要更多的信息,请回复给我。

谢谢,Abhirup

共有1个答案

佟寒
2023-03-14

dx是一个dataframewriter,所以您试图做的事情没有意义。你可以这样做:

df = spark.read.format(file_type).option("header","true").option("inferSchema", "true").option("delimiter", '|').load(file_location)

df.write.format("parquet").save()
df.write.format("delta").save()
 类似资料:
  • 我需要从Google Cloud Storage(GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程,将数据加载到BigQuery中,并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业,并在稍后的时间点检查了作业状态。由于我有100个表,需要创建一个监控系统来检查作业

  • 我正在尝试使用 azure databricks scala 将数据从 blob 存储加载到 SQL 数据仓库中。 我收到这个错误 潜在的SQLException:-com.microsoft.sqlserver.jdbc.SQLServerException:由于内部错误,外部文件访问失败:“访问HDFS时发生错误:Java调用HdfsBridge_IsDirExist时引发的异常。Java异常

  • 我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我已经很好地理解了Hadoop组件,如NamedNode、DataNode、Job Tracker、Task Tracker,以及它们如何协同工作以高效的方式存储数据。 null

  • 我需要将存在于Web链接上的数据上传到hdfs,例如“博客”。 现在,我正在寻找实现这一目标的选项,可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读,我不清楚如何设置水槽源来指向博客内容所在的网站。 根据我对 fluem 文档的理解,需要有网络服务器

  • 如何将 avro 文件从 Blob 存储加载到 Azure 数据工厂 移动数据流?我正在尝试加载,但无法导入架构和预览。我在 Blob 中的 avro 文件是事件中心捕获函数的结果。我必须使用 Azure 数据工厂的移动数据流将数据从 Azure blob 移动到 Azure sql db。

  • 我有一个 json 文件存储在 Azure Blob 存储中,并且已使用数据工厂将其加载到 Azure SQL 数据库中。现在我想找到一种方法,以便仅将文件的新记录加载到我的数据库(因为文件每周左右更新一次)。有没有办法做到这一点? 谢谢!