当前位置: 首页 > 知识库问答 >
问题:

将json文件从databricks移动到blob存储

龚联
2023-03-14

我在数据库中创建了一个连接到我的blob存储的挂载,并且我能够使用笔记本将文件从blob读取到数据库。

然后我使用pyspark将. txt转换为json格式,现在我想将其加载回blob存储。有人知道我会怎么做吗?

以下是我尝试过的一些事情:

<code>my_json.write。选项(“header”,“true”).json(“mnt/my_mount/file_name.json”)

< code>write.json(my_json,mnt/my_mount)

两者都不起作用。我可以使用以下方法将csv文件从databricks加载到blob:

my_data_frame.write.option("head","true"). csv("mnt/my_mount_name/filename.csv")

这工作正常,但我找不到移动json的解决方案。

有什么想法吗?

共有1个答案

梁宪
2023-03-14

免责声明:我是pySpark的新手,但这就是我所做的。

这是我在引用文档后所做的.sql.DataFrame作家.json


# JSON
my_dataframe.write.json("/mnt/my_mount/my_json_file_name.json")

# For a single JSON file
my_dataframe.repartition(1).write.json("/mnt/my_mount/my_json_file_name.json")

# Parquet
my_dataframe.write.mode("Overwrite").partitionBy("myCol").parquet("/mnt/my_mount/my_parquet_file_name.parquet")


 类似资料:
  • 我相当愚蠢地上传了一个vhd到Azure文件存储,以为我可以从它创建一个虚拟机,却发现它真的需要在Blob存储中。 我知道我可以再上传一次,但它非常大,我的上传速度非常慢。 我的问题是-我可以将文件从文件存储移动到blob存储,而无需再次下载/上传吗?也就是说,Azure门户UI中是否有任何东西可以执行此操作,甚至是PowerShell命令?

  • 我正在使用azure databricks和blob存储。我有一个存储帐户,每小时存储来自物联网设备的数据。因此,文件夹结构是{年/月/日/小时},它将数据存储为csv文件。我的要求是,需要每天从azure databricks访问文件(因此从0-23开始将有24个文件夹),并需要执行一些计算。

  • 我有一个通过System.Drawing动态生成的图像。然后,我将生成的图像输出到以存储到我的Azure blob中。 但我似乎无法将我的文件存储在我选择的blob中。没有发生错误,并且我的图像成功地保存到。不出所料,我的blob是空的。 到 但我会标记“Gaurav Mantri”的回应是正确的。如果不是他的洞察力,我的图像就不会上传到Blob上。

  • 如何将 avro 文件从 Blob 存储加载到 Azure 数据工厂 移动数据流?我正在尝试加载,但无法导入架构和预览。我在 Blob 中的 avro 文件是事件中心捕获函数的结果。我必须使用 Azure 数据工厂的移动数据流将数据从 Azure blob 移动到 Azure sql db。

  • 我正在尝试将一个图像文件从html页面上传到azure blob存储。到目前为止,我已经编写了一个web服务来为我的blob容器创建SAS。由此,我创建了一个uri,格式为“blob地址”/“容器名称”/“blob名称”?“sas”。我的html页面上有一个上传控件。 然后,我尝试使用以下代码上传该文件: 其中blobPath是上面提到的uri,upFile是我的html上传控件。 当我试图上传文

  • 我想通过运行在Azure VM上的FTP服务器与用户共享Azure Blob存储中的文件。 据我所知,您不能在VM上挂载Blob存储,但可以使用“网络使用”挂载Azure文件共享。 Blob存储上的文件将以增量方式上载,因此理想情况下,我希望在上载时将其复制到Azure文件,Azure功能似乎是理想的方式,因为它们很容易为我设置和处理Blob存储上的触发器。 我如何使用Azure功能将文件从Blo