我刚刚开始使用apache spark,并试图让kafka wordcount在Python中工作。我已经决定使用python语言,因为它是一种我可以用于其他大数据技术的语言,而且数据库也通过Spark提供它们的课程。
counts = lines.flatMap(lambda line: line.split("|")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a+b) \
.saveAsTextFiles("sparkfiles")
Kafka主题中的数据
16|16|Mr|Joe|T|Bloggs
对不起,我是个白痴。当我在spark应用程序运行时为主题生成数据时,可以在输出中看到以下内容
(u'a', 29)
(u'count', 29)
(u'This', 29)
(u'is', 29)
(u'so', 29)
(u'words', 29)
(u'spark', 29)
(u'the', 29)
(u'can', 29)
(u'sentence', 29)
这表示每个单词在Spark刚刚处理的块中被表示的次数。