我一直在尝试使用Spark中的sc.textfile()
加载本地文件。
我已经读过[问题]:如何在sc.textfile中加载本地文件,而不是HDFS
Centos 7.0上/home/spark/data.txt
中有本地文件
使用val data=sc.textfile(“file:///home/spark/data.txt”).collection
时,出现如下错误。
16/12/27 12:15:56警告TaskSetManager:stage 5.0中丢失任务0.0(TID 36,):java.io.FileNotFoundException:File File:/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus(rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.java:822)在org.apache.hadoop.fs.getfilestatus(oprdd.compute(hadooprdd.scala:209)在org.apache.spark.rdd.rdd.hadooprdd.compute(hadooprdd.scala:102)在org.apache.spark.rdd.rdd.computeorreadcheckpoint(rdd.scala:319)在org.apache.spark.rdd.rdd.rdd.iterator(rdd.scala:283)在org.apache.spark.rdd.scala:38)在org.apache.spark.rdd.rdd.computeorreadcheckpoint(
16/12/27 12:15:56错误TaskSetManager:阶段5.0中的任务0失败4次;正在中止作业org.apache.spark.sparkException:由于阶段失败而中止的作业:阶段5.0中的任务0失败了4次,最近的失败:阶段5.0中丢失了任务0.3(TID 42,):java.io.FileNotFoundException:File File:/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus(rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.getfileLinkStatusInternalA:67)在org.apache.spark.rdd.hadooprdd$$anon$1。(hadooprdd.scala:246)在org.apache.spark.rdd.hadooprdd.compute(hadooprdd.scala:209)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:319)在org.apache.spark.rdd.cala:283)在
显然这条路径中有一个文件。如果我使用错误的路径,那么错误如下所示。
val data = sc.textFile("file:///data.txt").collect
异常:输入路径不存在:文件:/data.txt在org.apache.hadoop.mapred.fileinputformat.singlethreadedliststatus(fileinputformat.java:287)在org.apache.hadoop.mapred.fileinputformat.liststatus(fileinputformat.java:229)在org.apache.hadoop.mapred.fileinputformat.getsplits(fileinputformat.java:315)在.sparkcontext.runjob(sparkcontext.scala:1911)在org.apache.spark.rdd.rdd$$anonfun$collect$1。apply(rdd.scala:893)在org.apache.spark.rdd.rddoperationscope$.WithScope(rddoperationscope:151)在org.apache.spark.rdd.rdd.rddoperationscope$.WithScope(rddoperationscope:112)在org.apache.spark.rdd.rdd.withScope(
我不知道为什么它不起作用。
有什么想法吗?
将该文件复制到$SPARK_HOME文件夹中,并使用以下命令:val data=sc.textfile(“data.txt”).collection
我正在学习伟大的火花教程 所以我尝试在46m:00s加载但我所做的是: 我如何加载?
我是spark的新手,在Ubuntu18.0上用java学习spark,没有显式集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。 在执行下面的代码时,
问题内容: 我想将Spark参数(例如输入文件,输出文件)存储到Java属性文件中,然后将该文件传递到Spark Driver中。我正在使用spark- submit提交作业,但是找不到参数来传递属性文件。你有什么建议吗? 问题答案: 在这里,我找到了一种解决方案: props文件 :(mypropsfile.conf)// 注意:密钥的前缀为“ spark”。 否则道具将被忽略。 发射 如何调用
当我在spack-2.2.0中加载xml文件时,如下所示: 它向我展示了一个错误: JAVAlang.ClassNotFoundException:未能找到数据源:xml。请在http://spark.apache.org/third-party-projects.html在org。阿帕奇。火花sql。处决数据源。数据源$。org上的lookUpdateSource(DataSource.scal
本文向大家介绍Android 如何本地加载pdf文件,包括了Android 如何本地加载pdf文件的使用技巧和注意事项,需要的朋友参考一下 大部分app打开pdf文件是通过intent调起手机中能打开pdf文件的工具,来查看pdf文件,如果需求是,用户在app内下载好pdf文件后,不通过第三方的工具,本地打开。 这样的需求要怎么实现呢?上网查了一些资料,发现了一个很好用PDF开源库。 使用起来也很
我正在从Cloudera包裹中运行带有Spark 0.9.0的CDH 4.4。 我有一堆Avro文件是通过Pig的AvroStorage UDF创建的。我想在 Spark 中加载这些文件,使用通用记录或载入 Avro 文件的架构。到目前为止,我已经尝试过这个: 这适用于一个文件,但它不能扩展——我将所有数据加载到本地RAM中,然后从那里跨spark节点分发。