当前位置: 首页 > 知识库问答 >
问题:

如何在Spark中使用sc.textfile加载本地文件?

邓元白
2023-03-14

我一直在尝试使用Spark中的sc.textfile()加载本地文件。

我已经读过[问题]:如何在sc.textfile中加载本地文件,而不是HDFS

Centos 7.0上/home/spark/data.txt中有本地文件

使用val data=sc.textfile(“file:///home/spark/data.txt”).collection时,出现如下错误。

16/12/27 12:15:56警告TaskSetManager:stage 5.0中丢失任务0.0(TID 36,):java.io.FileNotFoundException:File File:/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus(rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.java:822)在org.apache.hadoop.fs.getfilestatus(oprdd.compute(hadooprdd.scala:209)在org.apache.spark.rdd.rdd.hadooprdd.compute(hadooprdd.scala:102)在org.apache.spark.rdd.rdd.computeorreadcheckpoint(rdd.scala:319)在org.apache.spark.rdd.rdd.rdd.iterator(rdd.scala:283)在org.apache.spark.rdd.scala:38)在org.apache.spark.rdd.rdd.computeorreadcheckpoint(

16/12/27 12:15:56错误TaskSetManager:阶段5.0中的任务0失败4次;正在中止作业org.apache.spark.sparkException:由于阶段失败而中止的作业:阶段5.0中的任务0失败了4次,最近的失败:阶段5.0中丢失了任务0.3(TID 42,):java.io.FileNotFoundException:File File:/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus(rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.getfileLinkStatusInternalA:67)在org.apache.spark.rdd.hadooprdd$$anon$1。(hadooprdd.scala:246)在org.apache.spark.rdd.hadooprdd.compute(hadooprdd.scala:209)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:319)在org.apache.spark.rdd.cala:283)在

显然这条路径中有一个文件。如果我使用错误的路径,那么错误如下所示。

 val data = sc.textFile("file:///data.txt").collect

异常:输入路径不存在:文件:/data.txt在org.apache.hadoop.mapred.fileinputformat.singlethreadedliststatus(fileinputformat.java:287)在org.apache.hadoop.mapred.fileinputformat.liststatus(fileinputformat.java:229)在org.apache.hadoop.mapred.fileinputformat.getsplits(fileinputformat.java:315)在.sparkcontext.runjob(sparkcontext.scala:1911)在org.apache.spark.rdd.rdd$$anonfun$collect$1。apply(rdd.scala:893)在org.apache.spark.rdd.rddoperationscope$.WithScope(rddoperationscope:151)在org.apache.spark.rdd.rdd.rddoperationscope$.WithScope(rddoperationscope:112)在org.apache.spark.rdd.rdd.withScope(

我不知道为什么它不起作用。

有什么想法吗?

共有1个答案

萧修永
2023-03-14

将该文件复制到$SPARK_HOME文件夹中,并使用以下命令:val data=sc.textfile(“data.txt”).collection

 类似资料:
  • 我正在学习伟大的火花教程 所以我尝试在46m:00s加载但我所做的是: 我如何加载?

  • 我是spark的新手,在Ubuntu18.0上用java学习spark,没有显式集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。 在执行下面的代码时,

  • 问题内容: 我想将Spark参数(例如输入文件,输出文件)存储到Java属性文件中,然后将该文件传递到Spark Driver中。我正在使用spark- submit提交作业,但是找不到参数来传递属性文件。你有什么建议吗? 问题答案: 在这里,我找到了一种解决方案: props文件 :(mypropsfile.conf)// 注意:密钥的前缀为“ spark”。 否则道具将被忽略。 发射 如何调用

  • 当我在spack-2.2.0中加载xml文件时,如下所示: 它向我展示了一个错误: JAVAlang.ClassNotFoundException:未能找到数据源:xml。请在http://spark.apache.org/third-party-projects.html在org。阿帕奇。火花sql。处决数据源。数据源$。org上的lookUpdateSource(DataSource.scal

  • 本文向大家介绍Android 如何本地加载pdf文件,包括了Android 如何本地加载pdf文件的使用技巧和注意事项,需要的朋友参考一下 大部分app打开pdf文件是通过intent调起手机中能打开pdf文件的工具,来查看pdf文件,如果需求是,用户在app内下载好pdf文件后,不通过第三方的工具,本地打开。 这样的需求要怎么实现呢?上网查了一些资料,发现了一个很好用PDF开源库。 使用起来也很

  • 我通过安装了spark ~/miniconda3/envs/audience/lib/python3.6/site-packages/py4j/protocol.py in get_return_value(应答,gateway_client,target_id,name)318 Rise Py4JJavaError(319“调用{0}{1}{2}时出错.\n”。-->320格式(target_i