问题：

如何在Spark中使用sc.textfile加载本地文件？

邓元白

2023-03-14

我一直在尝试使用Spark中的sc.textfile()加载本地文件。

我已经读过[问题]:如何在sc.textfile中加载本地文件，而不是HDFS

Centos 7.0上/home/spark/data.txt中有本地文件

使用val data=sc.textfile（“file：///home/spark/data.txt”）.collection时，出现如下错误。

16/12/27 12:15:56警告TaskSetManager：stage 5.0中丢失任务0.0（TID 36，)：java.io.FileNotFoundException：File File：/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus（rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.java:822)在org.apache.hadoop.fs.getfilestatus（oprdd.compute（hadooprdd.scala：209）在org.apache.spark.rdd.rdd.hadooprdd.compute（hadooprdd.scala：102）在org.apache.spark.rdd.rdd.computeorreadcheckpoint（rdd.scala：319）在org.apache.spark.rdd.rdd.rdd.iterator（rdd.scala：283）在org.apache.spark.rdd.scala：38）在org.apache.spark.rdd.rdd.computeorreadcheckpoint（

16/12/27 12:15:56错误TaskSetManager：阶段5.0中的任务0失败4次；正在中止作业org.apache.spark.sparkException：由于阶段失败而中止的作业：阶段5.0中的任务0失败了4次，最近的失败：阶段5.0中丢失了任务0.3（TID 42,）：java.io.FileNotFoundException：File File：/home/spark/data.txt在org.apache.hadoop.fs.rawlocalfilesystem.deprecatedgetfilestatus（rawlocalfilesystem.java:609)在org.apache.hadoop.fs.rawlocalfilesystem.getfileLinkStatusInternalA:67)在org.apache.spark.rdd.hadooprdd$$anon$1。（hadooprdd.scala:246)在org.apache.spark.rdd.hadooprdd.compute（hadooprdd.scala:209)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:102)在org.apache.spark.rdd.cala:319)在org.apache.spark.rdd.cala:283)在

显然这条路径中有一个文件。如果我使用错误的路径，那么错误如下所示。

 val data = sc.textFile("file:///data.txt").collect

异常：输入路径不存在：文件：/data.txt在org.apache.hadoop.mapred.fileinputformat.singlethreadedliststatus（fileinputformat.java:287)在org.apache.hadoop.mapred.fileinputformat.liststatus（fileinputformat.java:229)在org.apache.hadoop.mapred.fileinputformat.getsplits（fileinputformat.java:315)在.sparkcontext.runjob（sparkcontext.scala：1911）在org.apache.spark.rdd.rdd$$anonfun$collect$1。apply（rdd.scala：893）在org.apache.spark.rdd.rddoperationscope$.WithScope（rddoperationscope：151）在org.apache.spark.rdd.rdd.rddoperationscope$.WithScope（rddoperationscope：112）在org.apache.spark.rdd.rdd.withScope（

我不知道为什么它不起作用。

有什么想法吗？

共有1个答案

萧修永

2023-03-14

将该文件复制到$SPARK_HOME文件夹中，并使用以下命令:val data=sc.textfile（“data.txt”）.collection

类似资料：

如何在sc.textFile而不是HDFS中加载本地文件

我正在学习伟大的火花教程所以我尝试在46m:00s加载但我所做的是：我如何加载？
Java spark无法在spark sql中从本地文件系统加载文件

我是spark的新手，在Ubuntu18.0上用java学习spark，没有显式集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。在执行下面的代码时，
如何加载Java属性文件并在Spark中使用？

问题内容：我想将Spark参数（例如输入文件，输出文件）存储到Java属性文件中，然后将该文件传递到Spark Driver中。我正在使用spark- submit提交作业，但是找不到参数来传递属性文件。你有什么建议吗？问题答案：在这里，我找到了一种解决方案： props文件：（mypropsfile.conf）// 注意：密钥的前缀为“ spark”。否则道具将被忽略。发射如何调用
如何在Spark 2.2.0中加载XML文件？

当我在spack-2.2.0中加载xml文件时，如下所示：它向我展示了一个错误： JAVAlang.ClassNotFoundException:未能找到数据源：xml。请在http://spark.apache.org/third-party-projects.html在org。阿帕奇。火花sql。处决数据源。数据源$。org上的lookUpdateSource（DataSource.scal
Android 如何本地加载pdf文件

本文向大家介绍Android 如何本地加载pdf文件，包括了Android 如何本地加载pdf文件的使用技巧和注意事项，需要的朋友参考一下大部分app打开pdf文件是通过intent调起手机中能打开pdf文件的工具，来查看pdf文件，如果需求是，用户在app内下载好pdf文件后，不通过第三方的工具，本地打开。这样的需求要怎么实现呢？上网查了一些资料，发现了一个很好用PDF开源库。使用起来也很
如何使用Avro文件上的模式在Spark中加载Avro？

我正在从Cloudera包裹中运行带有Spark 0.9.0的CDH 4.4。我有一堆Avro文件是通过Pig的AvroStorage UDF创建的。我想在 Spark 中加载这些文件，使用通用记录或载入 Avro 文件的架构。到目前为止，我已经尝试过这个：这适用于一个文件，但它不能扩展——我将所有数据加载到本地RAM中，然后从那里跨spark节点分发。

如何在Spark中使用sc.textfile加载本地文件？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档