当前位置: 首页 > 知识库问答 >
问题:

无法将CSV文件从Databricks集群DBFS导入h2o

范华清
2023-03-14

我已在我的AWS Database ricks集群上成功安装了两个h2o,然后成功启动了h2o服务器:

h2o.init()

当我尝试导入存储在Database ricks DBFS中的iris CSV文件时:

train, valid = h2o.import_file(path="/FileStore/tables/iris.csv").split_frame(ratios=[0.7])

我得到一个H2OResponseError:服务器错误water . exceptions . h2onotfoundargumentexception

CSV文件绝对在那里;在同一个Databricks笔记本中,我能够将其直接读取到数据帧中,并使用完全相同的完全限定路径查看内容:

df_iris = ks.read_csv("/FileStore/tables/iris.csv")
df_iris.head()

我也尝试过调用:

h2o.upload_file("/FileStore/tables/iris.csv")

但无济于事;我得到H2OValueError:File/FileStore/tables/iris。csv不存在。我还尝试过直接从本地计算机(C驱动器)上传文件,但也没有成功。

我试过不使用完全限定路径,只指定文件名,但我得到了同样的错误。我已经阅读了H2O留档并搜索了网络,但找不到以前遇到过这个问题的人。

有人能帮我吗?

谢谢。

共有1个答案

辛成周
2023-03-14

H2O可能不理解此路径位于DBFS上。您可以尝试指定path/dbfs/FileStore/table/iris.csv-在这种情况下,它将被读取为“本地文件”,或者尝试使用模式指定完整路径,如dbfs:/FileStore/table/iris.csv-但这可能需要针对H2O的特定于DBFS的jar。

 类似资料:
  • 我们刚刚在资源组中创建了一个新的 Azure 数据砖资源。在同一资源组中,有一个 Azure 数据砖的旧实例。从这个旧的数据砖实例开始,我将数据存储在dbfs中的数据复制到最新的数据砖实例中。我该怎么做?我的想法是使用FS命令将数据从一个dbfs复制或移动到另一个数据库,可能是装入卷,但我不明白我该怎么做。你有什么迹象吗? 谢谢,弗朗西斯科

  • 想要知道更多东西吗?当你需要从表中查找某些值时,可以使用冗长的 case 语句或 selectors 实现,但更整洁的方式是使用 extlookup 函数实现。 在 puppetmaster 上可以使用 extlookup 函数查询外部的 CSV 文件,并返回匹配的数据片段。 将所有数据组织到一个单一的文件并将它从 Puppet 配置清单中分离出来, 可以使维护工作变得更简单,也便于与其他人分享:

  • 我正在运行此命令以从普通群集(未安装hadoop)中读取 Azure 数据砖中的数据。 我得到了这个错误 你能建议我需要安装什么样的jar来让它工作吗

  • 问题内容: 我正在寻找使用导入文件到SQL Server的帮助,我有几个基本问​​题。 问题: CSV文件数据的中间(例如:描述)之间可能有(逗号),那么如何进行导入处理这些数据? 如果客户端从Excel创建CSV,则用逗号括起来的数据(用双引号引起来)(如下例所示),那么导入如何处理呢? 我们如何跟踪某些行是否有不良数据,哪些导入会跳过?(导入会跳过不可导入的行) 这是带有标题的示例CSV: 和

  • 我正在寻找有关使用将文件导入SQL Server的帮助,我没有什么基本问题。 下面是带有头部的示例CSV: 和要导入的SQL语句:

  • 问题内容: 我想将csv文件导入到mysql中。 http://www.tech- recipes.com/rx/2345/import_csv_file_direct_into_mysql/ 但是csv中的列名称与数据库表中的列名称不同,我该怎么办?我想以编程方式来做。 问题答案: 您可以创建一个脚本来解析您的csv文件并将数据放入db。 就像是: