当前位置: 首页 > 知识库问答 >
问题:

数据砖 - 将 dbfs:/文件存储文件下载到我的本地计算机

姜学海
2023-03-14

通常我使用下面的URL将文件从数据砖DBFS文件存储下载到我的本地计算机。

*https://<MY_DATABRICKS_INSTANCE_NAME>/fileStore/?o=<NUMBER_FROM_ORIGINAL_URL>*

然而,这一次文件没有被下载,URL把我带到了Databricks的主页。有没有人对我如何从DBFS下载文件到本地有什么建议?或者应该如何修复URL以使其工作?

任何建议将不胜感激!

沙俊春

共有1个答案

孔琪
2023-03-14

方法1:使用Databricks门户GUI,您可以下载完整的结果(最多100万行)。

方法 2: 使用数据砖 CLI

要下载完整结果,请先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。

dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"

您可以使用DBFS CLI、DBFS API、Databricks文件系统实用程序(dbutils.fs)、Spark APIs和本地文件API来访问DBFS对象。

在Spark集群中,您可以使用Databricks文件系统实用程序、Spark APIs或本地文件API来访问DBFS对象。

在本地计算机上,您可以使用Databricks CLI或DBFS API访问DBFS对象。

参考:Azure数据库-访问DBFS

DBFS命令行界面(CLI)使用DBFS API向DBFS公开易于使用的命令行界面。使用此客户端,您可以使用与Unix命令行上使用的命令类似的命令与DBFS交互。例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

参考:安装和配置Azure Databricks CLI

方法3:使用名为DBFS Explorer的第三方工具

DBFS资源管理器是作为上传和下载文件到Databricks文件系统(DBFS)的一种快捷方式而创建的。这将适用于AWS和Azure databrick实例。为了进行连接,您需要在web界面中创建一个不记名令牌。

 类似资料:
  • 问题内容: 目标 将文件从s3存储桶下载到用户计算机。 语境 我正在为React应用开发Python / Flask API。当用户单击前端上的“下载”按钮时,我想将适当的文件下载到他们的计算机上。 我尝试过的 我目前正在使用一些代码来查找下载文件夹的路径,然后将该路径以及他们试图下载的存储桶中的文件作为第二个参数插入到download_file()中。 这在本地有效,并且测试运行良好,但是一旦部

  • 我正在尝试将位于azure datalake中的csv压缩为zip。该操作是使用datricks中的python代码完成的,我在其中创建了一个挂载点以将dbfs与datalake直接关联。 这是我的代码: 但是我收到了这个错误: 有什么办法吗? 提前感谢。

  • 我目前有问题下载到函数tmp dir下面是我的代码。函数返回

  • 我有一个要求,我需要上传文件到谷歌云存储(他拥有并完全维护它)桶。 这个谷歌云存储桶是由我的客户创建的。 我是谷歌云的新手,有亚马逊S3的经验。我在服务器上运行SSI,以将事务数据加载到平面文件。 我为谷歌云创建了一个示例帐户,并安装了谷歌SDK。我可以通过gsutil手动上传文件。 我的问题是 > 我应该如何建议我的客户共享凭据? 我如何连接到谷歌云存储与提供凭据独立? 如何通过以上两个步骤将文

  • 问题内容: 我刚刚发现我的脚本给了我一个致命错误: 那行是这样的: 因此,我认为将文件加载到内存中并计算行数有困难,是否有更有效的方法可以在没有内存问题的情况下执行此操作? 我需要计算行数从2MB到500MB的文本文件。有时候也许是演出。 谢谢大家的帮助。 问题答案: 这将使用较少的内存,因为它不会将整个文件加载到内存中: 将一行加载到内存中(如果省略第二个参数,它将继续从流中读取数据,直到到达行

  • 我正试图在databricks笔记本的目录中查找最新的拼花文件。dbfsutils.fs.ls似乎不支持任何有关文件或文件夹的元数据。python中有没有其他方法可以做到这一点?数据存储在azure数据湖中,该数据湖安装在“/mnt/foo”下的DBFS上。感谢任何帮助或指点。