当前位置：首页 > 知识库问答 >

问题：

从azure blob存储将数据加载到delta lake

乐正涵意

2023-03-14

我正试图从azure blob存储中加载数据到delta lake。我正在使用下面的代码段

storage_account_name=“xxxxxxxxdev”storage_account_access_key=“xxxxxxxxxxxxxxxxxx”

file_location=“wasbs://bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.net/fshc/dim/fshc_dim_sbu”

file_type=“csv”

spark.conf.set（“fs.azure.account.key”+storage_account_name+“.blob.core.windows.net”，storage_account_access_key)

df=spark.read.format（file_type).option（“header”,“true”）.option（“inferschema”,“true”）.option（“delimiter”,“'').load（file_location）

dx=df.write.format（“拼花地板”）

dx.write.format（“delta”）.save(file_location)

错误：AttributeError：“DataFrameWriter”对象没有属性“Write”

附言。-我是否将文件位置错误地传递到write语句中？如果这是原因，那么delta Lake的文件路径是什么。

如果需要更多的信息，请回复给我。

谢谢,Abhirup

共有1个答案

佟寒

2023-03-14

dx是一个dataframewriter，所以您试图做的事情没有意义。你可以这样做：

df = spark.read.format(file_type).option("header","true").option("inferSchema", "true").option("delimiter", '|').load(file_location)

df.write.format("parquet").save()
df.write.format("delta").save()

类似资料：

将数据从google云存储加载到BigQuery

我需要从Google Cloud Storage（GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程，将数据加载到BigQuery中，并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业，并在稍后的时间点检查了作业状态。由于我有100个表，需要创建一个监控系统来检查作业
使用 azure databricks scala 将数据从 blob 存储加载到 sql 数据仓库

我正在尝试使用 azure databricks scala 将数据从 blob 存储加载到 SQL 数据仓库中。我收到这个错误潜在的SQLException：-com.microsoft.sqlserver.jdbc.SQLServerException：由于内部错误，外部文件访问失败：“访问HDFS时发生错误：Java调用HdfsBridge_IsDirExist时引发的异常。Java异常
Hive如何存储数据（从HDFS加载）？

我对Hadoop（HDFS和Hbase）和Hadoop生态系统(Hive、Pig、Impala等）相当陌生。我已经很好地理解了Hadoop组件，如NamedNode、DataNode、Job Tracker、Task Tracker，以及它们如何协同工作以高效的方式存储数据。 null
将数据从网站加载到hdfs

我需要将存在于Web链接上的数据上传到hdfs，例如“博客”。现在，我正在寻找实现这一目标的选项，可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读，我不清楚如何设置水槽源来指向博客内容所在的网站。根据我对 fluem 文档的理解，需要有网络服务器
如何将avro文件从blob存储加载到Azure数据工厂移动数据流？

如何将 avro 文件从 Blob 存储加载到 Azure 数据工厂移动数据流？我正在尝试加载，但无法导入架构和预览。我在 Blob 中的 avro 文件是事件中心捕获函数的结果。我必须使用 Azure 数据工厂的移动数据流将数据从 Azure blob 移动到 Azure sql db。
如何使用数据工厂将数据从Azure Blob存储增量加载到Azure SQL数据库？

我有一个 json 文件存储在 Azure Blob 存储中，并且已使用数据工厂将其加载到 Azure SQL 数据库中。现在我想找到一种方法，以便仅将文件的新记录加载到我的数据库（因为文件每周左右更新一次）。有没有办法做到这一点？谢谢！

相关问答

如何将avro文件从blob存储加载到Azure数据工厂移动数据流？如何使用数据工厂将数据从Azure Blob存储增量加载到Azure SQL数据库？将视频从Firebase存储加载到视频视图将数据从MS SQL表加载到snappyData 转储数据集时将数据从配置单元加载到Pig错误

相关文章

将arrayList数据加载到JTable中将字节数组加载到内存类加载器中将S3数据加载到AWS SageMaker Notebook 将大量数据加载到Oracle SQL数据库 ResultSet是将所有数据加载到内存还是仅在请求时加载？

相关阅读

ECharts 异步加载数据加载示例数据库 6.1 数据存储与访问之——文件存储读写杉岩数据c++存储开发数据结构的图存储结构

相关工具

Android数据库加密SDK 图片下载和保存 webview 加载css js 文件从服务器下载书籍 Docker —— 从入门到实践

相关文档

数据采集从入门到放弃小米结构化数据存储服务 SDS 开发指南小米对象存储服务 FDS 用户文档从 Docker 到 Kubernetes 进阶 Aliyun 阿里云 OSS 对象储存 API 帮助文档