我想在Zeppelin中阅读csv文件,并想使用Databricks的spark-csv包:https://github.com/databricks/spark-csv
spark-shell --packages com.databricks:spark-csv_2.11:1.2.0
提前感谢!
在对Spark包使用%dep之前,您需要将Spark包存储库添加到Zeppelin。
%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.2.0")
或者,如果您希望在所有笔记本中都有此功能,可以在Zeppelin的解释器配置中的spark-submit命令设置中添加--packages选项,然后重新启动解释器。这应该启动一个上下文,其中包含已经按照spark-shell方法加载的包。
问题内容: 我正在docker容器中的纱线模式下使用本教程的火花群集在纱线模式下的火花群集中启动齐柏林飞艇。但是我陷入了第4步。我在Docker容器中找不到conf / zeppelin- env.sh来进行进一步的配置。我尝试将这些齐柏林飞艇的conf文件夹放入,但是现在成功了。除了那个齐柏林飞艇笔记本电脑也没有运行在本地主机上:9001。 我对分布式系统非常陌生,如果有人可以帮助我以纱线模式在
我正在尝试使用spack-csv从spack-shell中的aws s3读取csv。 下面是我所做的步骤。使用下面的命令启动spack-shell 箱子/火花壳——包装com。数据块:spark-csv\u 2.10:1.2.0 在shell中,执行以下scala代码 获取以下错误 我在这里错过了什么?请注意,我可以使用 同样的scala代码在databricks笔记本中也可以正常工作 在spar
我正在通过Spark使用以下命令读取csv文件。 我需要创建一个Spark DataFrame。 我使用以下方法将此rdd转换为spark df: 但是在将rdd转换为df时,我需要指定df的模式。我试着这样做:(我只有两列文件和消息) 然而,我得到了一个错误:java。lang.IllegalStateException:输入行没有架构所需的预期值数。需要2个字段,但提供1个值。 我还尝试使用以
我正在尝试将压缩的csv文件(.bz2)读取为数据帧。我的代码如下 当我在IDE中尝试时,这是可行的。我可以读取数据并对其进行处理,但当我尝试使用maven构建数据并在命令行上运行它时,会出现以下错误 我不确定我是否在这里错过了什么。读取csv文件是否有一些依赖项?根据留档,Spark 2. x. x内置了对此的支持。
> 我运行spark shell,如下所示: spark-shell--jars.\spark-csv2.11-1.4.0.jar;.\commons-csv-1.2.jar(我不能直接下载这些依赖项,这就是我使用--jars的原因) 使用以下命令读取csv文件: 在执行第一个建议的解决方案后: