问题：

如何将所有文件从blob存储容器导入并处理到azure databricks

万俟亦

2023-03-14

我正在使用azure databricks和blob存储。我有一个存储帐户，每小时存储来自物联网设备的数据。因此，文件夹结构是{年/月/日/小时}，它将数据存储为csv文件。我的要求是，需要每天从azure databricks访问文件（因此从0-23开始将有24个文件夹），并需要执行一些计算。

共有1个答案

廉宇

2023-03-14

为了在wasb容器下处理许多文件，您需要使用Hadoop输入格式glob模式。模式如下所示，有点类似于regex：

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例，以下操作应该有效：

df = spark.read.format("csv").load("/container/*/*/*/*.csv")

类似资料：

如何将ZIP文件从API管理上传到Blob存储

> 我正在向我的某个 Azure Api 管理 API 发送 POST 请求在此帖子请求中，有一个 json 正文，其中包含 base64 编码的数据（zip 文件），如以下示例所示：｛“foo”：“bar”，“data”：“your-base64-string”｝在API策略中，我想向Azure Storage REST API发送一个单独的请求，将上面提到的base64字符串保存为一个z
如何将处理文件导入处理文件？

我正在处理IDE中制作一个Java处理项目，并希望将其传播到多个PDE（处理源代码）文件中。我无法使用导入将Java处理源代码文件导入为Java类文件。 <代码>配置。pde <代码>项目。pde 返回导入项目/配置无法解析分别为。我必须先编译PDE文件吗？是否可以将处理IDE设置为每次运行都自动执行？太长，读不下去了拥有此项目文件夹：如何使用配置中的函数和变量。项目中的pde。pde
将文件从Azure文件存储移动到Azure Blob存储

我相当愚蠢地上传了一个vhd到Azure文件存储，以为我可以从它创建一个虚拟机，却发现它真的需要在Blob存储中。我知道我可以再上传一次，但它非常大，我的上传速度非常慢。我的问题是-我可以将文件从文件存储移动到blob存储，而无需再次下载/上传吗？也就是说，Azure门户UI中是否有任何东西可以执行此操作，甚至是PowerShell命令？
将MemoryStream文件存储到Azure Blob

我有一个通过System.Drawing动态生成的图像。然后，我将生成的图像输出到以存储到我的Azure blob中。但我似乎无法将我的文件存储在我选择的blob中。没有发生错误，并且我的图像成功地保存到。不出所料，我的blob是空的。到但我会标记“Gaurav Mantri”的回应是正确的。如果不是他的洞察力，我的图像就不会上传到Blob上。
将json文件从databricks移动到blob存储

我在数据库中创建了一个连接到我的blob存储的挂载，并且我能够使用笔记本将文件从blob读取到数据库。然后我使用pyspark将. txt转换为json格式，现在我想将其加载回blob存储。有人知道我会怎么做吗？以下是我尝试过的一些事情：＜code＞my_json.write。选项（“header”，“true”）.json（“mnt/my_mount/file_name.json”） <
将csv文件写入azure blob存储

我正在尝试使用pyspark来分析我在数据砖笔记本上的数据。Blob 存储已装载到数据砖群集上，在分析后，希望将 csv 写回 blob 存储。由于 pyspark 以分布式方式工作，csv 文件被分解为小块并写入 Blob 存储。如何克服这个问题，并在我们使用pyspark进行分析时在blob上编写为单个csv文件。谢谢。

如何将所有文件从blob存储容器导入并处理到azure databricks

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档