问题：

火花教程的问题

常海

2023-03-14

我正在尝试 https://github.com/apache/spark/blob/v2.0.1/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredNetworkWordCountWindowed.scala 个例子。

但是，指定端口号处的输入应该是什么？

共有1个答案

钱选

2023-03-14

在您的终端上使用此命令。

nc -lk 9999

大概是这样的：

# TERMINAL 1:
# Running Netcat

$ nc -lk 9999
apache spark
apache hadoop

输出将是：

-------------------------------------------
Batch: 0
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|apache|    1|
| spark|    1|
+------+-----+

-------------------------------------------
Batch: 1
-------------------------------------------
+------+-----+
| value|count|
+------+-----+
|apache|    2|
| spark|    1|
|hadoop|    1|
+------+-----+
...

并相应地查看输出。

这里有更好的文档:https://home . Apache . org/~ pwendell/spark-nightly/spark-branch-2.0-docs/latest/structured-streaming-programming-guide . html # quick-example

类似资料：

火花记忆问题

嗨，我对Spark很陌生。我正在Apache Spark scala命令行上执行以下命令
火花线的性能问题

我们正在尝试在纱线上运行我们的火花集群。我们有一些性能问题，尤其是与独立模式相比。我们有一个由5个节点组成的集群，每个节点都有16GB的RAM和8个核心。我们已将纱线站点中的最小容器大小配置为3GB，最大为14GB。xml。向纱线集群提交作业时，我们提供的执行器数量=10，执行器内存=14 GB。根据我的理解，我们的工作应该分配4个14GB的容器。但spark UI仅显示3个容器，每个容器的容量
番石榴/火花问题

我的 Spark 版本是 2.2.0，它在本地工作，但在具有相同版本的 EMR 上，它给出了以下异常。
火花连接：括号问题

我要加入两个rdd。示例文件1数据: 示例文件2数据：下面是代码： o/p是k，(v)，我想在做进一步处理时去掉值两边的括号。我尝试了一些事情，包括我还保存了结果：不幸的是，结果总是以下格式：我希望他们：
火花Kafka流媒体问题

它没有任何错误，我得到以下错误时，我运行火花提交，任何帮助都非常感谢。谢谢你抽出时间。线程“main”java.lang.noClassDeffounderror：org/apache/spark/streaming/kafka/kafkautils在kafkasparkstreaming.sparkstreamingtest(kafkasparkstreaming.java:40)在kafka
火花流中的状态函数问题

我尝试使用Spark Streaming并希望有一个全局状态对象，可以在每个批处理后更新。据我所知，至少有两种选择适合我：1。使用，其中Spark将在处理每个批处理后自动更新状态2。使用函数，在这里我必须自己调用更新类型javapairdStream 中的方法updateStateByKey(Function2 ,optional ,optional >)不适用于参数（new function2

火花教程的问题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档