当前位置: 首页 > 知识库问答 >
问题:

Spark Kafka WordCount Python

竺绍辉
2023-03-14

我刚刚开始使用apache spark,并试图让kafka wordcount在Python中工作。我已经决定使用python语言,因为它是一种我可以用于其他大数据技术的语言,而且数据库也通过Spark提供它们的课程。

                counts = lines.flatMap(lambda line: line.split("|")) \
                    .map(lambda word: (word, 1)) \
                    .reduceByKey(lambda a, b: a+b) \
                    .saveAsTextFiles("sparkfiles")

Kafka主题中的数据

                    16|16|Mr|Joe|T|Bloggs

共有1个答案

闻枫
2023-03-14

对不起,我是个白痴。当我在spark应用程序运行时为主题生成数据时,可以在输出中看到以下内容

                (u'a', 29)
                (u'count', 29)
                (u'This', 29)
                (u'is', 29)
                (u'so', 29)
                (u'words', 29)
                (u'spark', 29)
                (u'the', 29)
                (u'can', 29)
                (u'sentence', 29)

这表示每个单词在Spark刚刚处理的块中被表示的次数。

 类似资料:

相关问答

相关文章

相关阅读