当前位置: 首页 > 知识库问答 >
问题:

HDFS目录作为火花流中的参数

邹高懿
2023-03-14

我在使用 Spark 流式处理示例时遇到问题:https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/streaming/examples/HdfsWordCount.scala

当我尝试使用 SBT 启动它时

run local /user/dir/subdir/

我有这个例外

[info] Running org.apache.spark.streaming.examples.HdfsWordCount local /user/dir/subdir/
14/04/21 18:45:55 INFO StreamingExamples: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/04/21 18:45:55 INFO StreamingExamples: Setting log level to [WARN] for streaming example. To override add a custom log4j.properties to the classpath.
14/04/21 18:45:55 WARN Utils: Your hostname, ubuntu resolves to a loopback address: 127.0.1.1; using 10.4.4.6 instead (on interface eth0)
14/04/21 18:45:55 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
14/04/21 18:45:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
14/04/21 18:46:00 ERROR JobScheduler: Error generating jobs for time 1398098760000 ms
java.io.FileNotFoundException: File /user/dir/subdir/ does not exist

我确定该目录存在于Hadoop fs上,我甚至在那里复制了一个文件。有什么我不知道的输入格式吗?

共有2个答案

仲孙德惠
2023-03-14

您必须查看您的核心站点。hadoop中的xml文件。它必须具有具有默认路径的属性

<configuration>
    <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
    </property>
</configuration>
司马振国
2023-03-14

我已经找到了答案的解决方案。输入hdfs目录的正确方法是这样的,至少在我的情况下是这样的:

run local hdfs://localhost:9000/user/dir/subdir/

我在Spark文档中找到了这一点:http://spark.apache.org/docs/latest/spark-standalone.html#running-与hadoop并肩作战

 类似资料:
  • 试图读取一个空的镶木地板目录,得到这个错误 无法指定拼花地板的架构。必须手动指定 我的代码 尝试处理scala尝试和定期检查空目录 任何想法

  • 我试图从聚合原理的角度来理解火花流。Spark DF 基于迷你批次,计算在特定时间窗口内出现的迷你批次上完成。 假设我们有数据作为- 然后首先对Window_period_1进行计算,然后对Window_period_2进行计算。如果我需要将新的传入数据与历史数据一起使用,比如说Window_priod_new与Window_pperid_1和Window_perid_2的数据之间的分组函数,我该

  • 我正在使用一个火花流作业,它使用带有初始RDD的mapAnd State。当重新启动应用程序并从检查点恢复时,它会失败,出错: 此RDD缺少SparkContext。它可能发生在以下情况: RDD转换和操作不是由驱动程序调用的,而是在其他转换内部调用的;例如,rdd1.map(x= 中描述了此行为https://issues.apache.org/jira/browse/SPARK-13758但它

  • 我正在尝试从这个Scala代码写入csv文件。我使用HDFS作为临时目录,然后writer.write在现有子文件夹中创建一个新文件。我收到以下错误消息: java.io./tfsdl-ghd-wb/raidnd/Incte_19 如果我选择新建文件或退出文件,也会发生同样的情况,我已经检查了路径是否正确,只想在其中创建一个新文件。 问题是,为了使用基于文件系统的源写入数据,您需要一个临时目录,这

  • 我正在尝试使用python库Tweepy来传输twitter数据。我设置了工作环境,谷歌了一下这些东西,但是我不知道它们是如何工作的。我想在python (tweepy)中使用spark streaming(DStream-Batch processing)。我至少经历了以下环节: < li >如何获取tweepy中某个位置的特定标签的推文? < Li > http://spark . Apach