问题：

用spark-csv读取齐柏林飞艇中的csv文件

李博达

2023-03-14

我想在Zeppelin中阅读csv文件，并想使用Databricks的spark-csv包：https://github.com/databricks/spark-csv

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0

提前感谢！

共有1个答案

黄宏旷

2023-03-14

在对Spark包使用%dep之前，您需要将Spark包存储库添加到Zeppelin。

%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.2.0")

或者，如果您希望在所有笔记本中都有此功能，可以在Zeppelin的解释器配置中的spark-submit命令设置中添加--packages选项，然后重新启动解释器。这应该启动一个上下文，其中包含已经按照spark-shell方法加载的包。

类似资料：

在星团模式下运行齐柏林飞艇

问题内容：我正在docker容器中的纱线模式下使用本教程的火花群集在纱线模式下的火花群集中启动齐柏林飞艇。但是我陷入了第4步。我在Docker容器中找不到conf / zeppelin- env.sh来进行进一步的配置。我尝试将这些齐柏林飞艇的conf文件夹放入，但是现在成功了。除了那个齐柏林飞艇笔记本电脑也没有运行在本地主机上：9001。我对分布式系统非常陌生，如果有人可以帮助我以纱线模式在
使用spark shell中的spark CSV包读取CSV

我正在尝试使用spack-csv从spack-shell中的aws s3读取csv。下面是我所做的步骤。使用下面的命令启动spack-shell 箱子/火花壳——包装com。数据块：spark-csv\u 2.10:1.2.0 在shell中，执行以下scala代码获取以下错误我在这里错过了什么？请注意，我可以使用同样的scala代码在databricks笔记本中也可以正常工作在spar
使用Spark读取CSV

我正在通过Spark使用以下命令读取csv文件。我需要创建一个Spark DataFrame。我使用以下方法将此rdd转换为spark df：但是在将rdd转换为df时，我需要指定df的模式。我试着这样做：（我只有两列文件和消息）然而，我得到了一个错误：java。lang.IllegalStateException：输入行没有架构所需的预期值数。需要2个字段，但提供1个值。我还尝试使用以
Spark 2.1.0：读取压缩的csv文件

我正在尝试将压缩的csv文件（.bz2）读取为数据帧。我的代码如下当我在IDE中尝试时，这是可行的。我可以读取数据并对其进行处理，但当我尝试使用maven构建数据并在命令行上运行它时，会出现以下错误我不确定我是否在这里错过了什么。读取csv文件是否有一些依赖项？根据留档，Spark 2. x. x内置了对此的支持。
SPARK-CSV读取选项
使用SqlContext.Read读取Spark中的.csv文件时出错

> 我运行spark shell，如下所示： spark-shell--jars.\spark-csv2.11-1.4.0.jar；.\commons-csv-1.2.jar（我不能直接下载这些依赖项，这就是我使用--jars的原因）使用以下命令读取csv文件：在执行第一个建议的解决方案后：

用spark-csv读取齐柏林飞艇中的csv文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档