当前位置: 首页 > 知识库问答 >
问题:

在不使用集群的情况下将Azure Blob存储加载到Azure Databricks

虞展
2023-03-14

谢谢

共有1个答案

江向阳
2023-03-14

你所要求的是可能的,但它需要一点额外的工作。在我们的组织中,我们尝试了各种方法,我已经和数据库一起工作了一段时间。最适合我们的解决方案是编写一个bash脚本,利用Azure Devops管道中的databricks-cli。我们的做法如下:

  1. 使用令牌API检索Databricks令牌
  2. 在CI/CD管道中配置数据库CLI
  3. 使用Databricks CLI上载装入脚本
  4. 使用Jobs API创建一个Databricks作业,并将挂载脚本设置为文件以执行

上面的步骤都包含在一个bash脚本中,该脚本是我们Azure Devops管道的一部分。

https://docs.databricks.com/data/data-sources/azure/azure-datalake-gen2.html#mount-azure-data-lake-storage-gen2-filesystem。

在Azure Devops管道中上传挂载脚本
,databricks-cli是通过使用令牌API创建临时令牌来配置的。完成这一步后,我们可以自由地使用CLI将挂载脚本上传到DBFS,或者使用Workspace API将其作为笔记本导入。

https://docs.microsoft.com/en-美国/azure/databricks/dev-tools/api/latest/workspace#-导入

https://docs.microsoft.com/en-美国/azure/databricks/dev-tools/api/lates/jobs#-

此时,触发作业应该会创建一个临时集群,为您挂载存储。您应该不需要使用web界面,也不需要执行任何手动步骤。

您可以将此方法应用于不同的环境和资源组,我们也是如此。为此,我们使用Jinja模板来填充特定于环境或项目的变量。

 类似资料:
  • 在Android中使用和iOS中使用下载存储文件,是否仍然在暗中使用下载uri方法,即在uri末尾使用不可猜测的标记? 我的要求禁止我们向世界公开这样的URL,所以问题是: null

  • 据我所知,您可以通过以下方式使用PIL获取图像大小 但是,我希望获得图像的宽度和高度,而不必将图像加载到内存中。可能吗?我只做图像大小的统计,不关心图像内容。我只是想让我的处理速度更快。

  • 我正在使用redux saga。执行分派时,会执行likePost和addPost等函数。 然后每次我使用异步存储。获取令牌的getItem。换句话说,它是重叠的 因为我必须使用jwt令牌 我需要不断传递这样的头到api。这也是重叠 这个怎么用没有冗余,或者说怎么用最方便? 这是我的密码 (saga/post.js) (佐贺/index.js)

  • 问题内容: 我有两个实体: 保存首选项时,我具有accountId,但没有Account实体。在这种情况下,如何保存首选项? 加载帐户实体并在首选项上进行设置?对我来说,这似乎是对数据库的错误旅行。 是否具有一个可持久保存的accountId字段并使Account字段为只读?同时拥有一个accountId字段和一个Account字段似乎多余吗? 使用NamedQuery保留首选项?我希望只是通用地

  • 问题内容: 在开始之前,我知道不使用布局管理器是一个坏主意,通常我确实会使用一个布局管理器,但是,我还让所有组件根据窗口的大小自动调整大小并重新放置。另外,我正在使用的程序只能在整个生命周期中在一台计算机上运行。请不要仅仅因为缺少布局管理器而对我投反对票,我发现这正是我为此特定程序所需要的。 对于我的问题,我在stackoverflow上找到了类似的帖子,但从未实现解决方案。我加入的动态量我的,我

  • 问题内容: 我需要按发布日期降序对存储在数据库中的文章进行排序,然后使用来记录文章之后的前20条记录。 这就是我要对Linq进行的操作: 但是,这会生成NotSupportedException,因为Linq to Sql不支持(请参见此处)。 一种可能的解决方案是执行查询,然后使用Linq将其应用于对象: 但这意味着我需要先将整个有序列表加载到内存中,然后再用读取20篇文章。 有没有办法避免这种