问题：

HDFS目录作为火花流中的参数

邹高懿

2023-03-14

我在使用 Spark 流式处理示例时遇到问题：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/streaming/examples/HdfsWordCount.scala

当我尝试使用 SBT 启动它时

run local /user/dir/subdir/

我有这个例外

[info] Running org.apache.spark.streaming.examples.HdfsWordCount local /user/dir/subdir/
14/04/21 18:45:55 INFO StreamingExamples: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/04/21 18:45:55 INFO StreamingExamples: Setting log level to [WARN] for streaming example. To override add a custom log4j.properties to the classpath.
14/04/21 18:45:55 WARN Utils: Your hostname, ubuntu resolves to a loopback address: 127.0.1.1; using 10.4.4.6 instead (on interface eth0)
14/04/21 18:45:55 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
14/04/21 18:45:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
14/04/21 18:46:00 ERROR JobScheduler: Error generating jobs for time 1398098760000 ms
java.io.FileNotFoundException: File /user/dir/subdir/ does not exist

我确定该目录存在于Hadoop fs上，我甚至在那里复制了一个文件。有什么我不知道的输入格式吗？

共有2个答案

仲孙德惠

2023-03-14

您必须查看您的核心站点。hadoop中的xml文件。它必须具有具有默认路径的属性

<configuration>
    <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
    </property>
</configuration>

司马振国

2023-03-14

我已经找到了答案的解决方案。输入hdfs目录的正确方法是这样的，至少在我的情况下是这样的：

run local hdfs://localhost:9000/user/dir/subdir/

我在Spark文档中找到了这一点：http://spark.apache.org/docs/latest/spark-standalone.html#running-与hadoop并肩作战

类似资料：

火花读取空目录

试图读取一个空的镶木地板目录，得到这个错误无法指定拼花地板的架构。必须手动指定我的代码尝试处理scala尝试和定期检查空目录任何想法
聚合火花流

我试图从聚合原理的角度来理解火花流。Spark DF 基于迷你批次，计算在特定时间窗口内出现的迷你批次上完成。假设我们有数据作为- 然后首先对Window_period_1进行计算，然后对Window_period_2进行计算。如果我需要将新的传入数据与历史数据一起使用，比如说Window_priod_new与Window_pperid_1和Window_perid_2的数据之间的分组函数，我该
火花流作业不可恢复

我正在使用一个火花流作业，它使用带有初始RDD的mapAnd State。当重新启动应用程序并从检查点恢复时，它会失败，出错：此RDD缺少SparkContext。它可能发生在以下情况： RDD转换和操作不是由驱动程序调用的，而是在其他转换内部调用的；例如，rdd1.map（x= 中描述了此行为https://issues.apache.org/jira/browse/SPARK-13758但它
使用时间路径的火花写入操作HDFS

我正在尝试从这个Scala代码写入csv文件。我使用HDFS作为临时目录，然后writer.write在现有子文件夹中创建一个新文件。我收到以下错误消息： java.io./tfsdl-ghd-wb/raidnd/Incte_19 如果我选择新建文件或退出文件，也会发生同样的情况，我已经检查了路径是否正确，只想在其中创建一个新文件。问题是，为了使用基于文件系统的源写入数据，您需要一个临时目录，这
使用Tweepy的火花流

我正在尝试使用python库Tweepy来传输twitter数据。我设置了工作环境，谷歌了一下这些东西，但是我不知道它们是如何工作的。我想在python (tweepy)中使用spark streaming(DStream-Batch processing)。我至少经历了以下环节: < li >如何获取tweepy中某个位置的特定标签的推文？ < Li > http://spark . Apach
如果还在火花流中

谢谢。

HDFS目录作为火花流中的参数

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档