当前位置: 首页 > 知识库问答 >
问题:

无法读取csv文件Apache Zeppelin 0.8

乌和畅
2023-03-14

我目前正在使用Apache Zeppelin 0.8。我尝试加载如下csv文件:

val df = spark.read.option("header", "true").option("inferSchema", "true").csv("/path/to/csv/name.csv")

我也尝试过这个:

val df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/path/to/csv/name.csv")

但是,它无法打印出以下内容:

组织。阿帕奇。火花SparkException:作业因阶段失败而中止:阶段2.0中的任务0失败1次,最近的失败:阶段2.0中的任务0.0丢失(TID 2,localhost,executor driver):java。lang.NoSuchMethodError:org。阿帕奇。hadoop。fs。文件系统$统计信息。getThreadStatistics()Lorg/apache/hadoop/fs/FileSystem$Statistics$StatisticsData;

注意:如果我使用齐柏林飞艇环境中的Spark\u HOME env变量为Spark指定自己的构建,问题就解决了。但是,我仍然希望有一个不需要我这样做的解决方案,因为我还有一些其他库不适用于该版本的Spark。

共有1个答案

籍弘伟
2023-03-14

spark运行时中的有效类路径spark与hadoop fs库版本冲突。这可能是由于您的胖罐子带来了不兼容的版本。

如果在“环境”选项卡中打开Spark UI,您可以看到类路径上的所有jar文件。在那里,您可以尝试找出哪个库引起了问题。

如果您正在构建一个胖jar,请尝试查看它的内容,看看它是否也包含Hadoop类

jar -tf /path/to/your/jar | grep "org.apache.hadoop.fs.FileSystem"

如果是这样,您应该在mvn/sbt中将您的Hadoop依赖项标记为提供。

 类似资料:
  • 我尝试使用pyspark读取csv文件,并使用以下pyspark代码: 但是我得到了这个错误: 在collect(self)532中使用SCCallSiteSync(self._sc)作为CSS:533 sock_info=self._jdf.collectTopython()-->534返回列表(_load_from_socket(sock_info,BatchedSerializer()))5

  • 这是我在大学的一个项目,一切似乎都很好,除了游戏课,它初始化了游戏。下面是一个片段 之后是一些getter和我要实现的4个方法。这些方法是、、、 我创建了,以便它在此处返回String[]的数组列表: 然后,我想加载一些攻击、敌人和龙,并将它们插入相应的数组列表中。 我在此处应用了: 我这样写它,它接受从返回的ArrayList,并使用开关在ArrayList中的每个String[]中搜索第一个字

  • 我想从多列csv文件中读取特定列,并使用Java在其他csv文件中打印这些列。需要帮忙吗?下面是我逐行打印每个令牌的代码。。但我希望只打印多列csv中的几列。

  • 我是R的新手,想读一个csv文件。但是当我试图阅读它时,我遇到了错误。我的csv文件如下: 当我在RStudio中使用此命令时,我得到了错误:命令: 错误: 读取时出错。表(file=file,header=header,sep=sep,quote=quote,:不允许重复的“row.names” 我还尝试删除错误并使用此命令: 但是当我查看输出时,它不能保持方阵的结构。你能帮我做什么吗?

  • 我是python编程/数据科学家领域的新手。我使用Pycharm和MacOs。出于学习目的,我从Kaggle下载了一些CSV文件,我总是能够将它们加载到Pycharm中。但实际上我无法从我的工作环境中加载csv文件,令人惊讶的是,我可以使用R函数'fread'加载该文件,但我的目标是将其加载到python中。请在下面查找代码和错误: 代码: 错误: “/Users/oscargonzalez-ll

  • 问题内容: 我想读取.bak文件,这些文件是ms sql数据库的备份文件。现在,我正在研究如何使用Sql Mngmnt studio读取这些文件。请帮帮我。谢谢 问题答案: 您可以使用SQL Management Studio将.BAK文件还原到临时数据库并读取它们! 这里的一些指针