问题：

Spark Kafka WordCount Python

竺绍辉

2023-03-14

我刚刚开始使用apache spark，并试图让kafka wordcount在Python中工作。我已经决定使用python语言，因为它是一种我可以用于其他大数据技术的语言，而且数据库也通过Spark提供它们的课程。

                counts = lines.flatMap(lambda line: line.split("|")) \
                    .map(lambda word: (word, 1)) \
                    .reduceByKey(lambda a, b: a+b) \
                    .saveAsTextFiles("sparkfiles")

Kafka主题中的数据

                    16|16|Mr|Joe|T|Bloggs

共有1个答案

闻枫

2023-03-14

对不起，我是个白痴。当我在spark应用程序运行时为主题生成数据时，可以在输出中看到以下内容

                (u'a', 29)
                (u'count', 29)
                (u'This', 29)
                (u'is', 29)
                (u'so', 29)
                (u'words', 29)
                (u'spark', 29)
                (u'the', 29)
                (u'can', 29)
                (u'sentence', 29)

这表示每个单词在Spark刚刚处理的块中被表示的次数。

类似资料：

Spark Kafka WordCount Python

共有1个答案

相关问答

相关文章

相关阅读