使用PySpark提取功能（Extracting features with PySpark）

优质

小牛编辑

147浏览

2023-12-01

在本章中，我们将了解PySpark在敏捷数据科学中的提取功能的应用。

Spark概述

Apache Spark可以定义为快速实时处理框架。它进行计算以实时分析数据。 Apache Spark作为流处理系统实时引入，也可以处理批处理。 Apache Spark支持交互式查询和迭代算法。

Spark是用“Scala编程语言”编写的。

PySpark可以被认为是Python与Spark的结合。 PySpark提供PySpark shell，它将Python API链接到Spark核心并初始化Spark上下文。大多数数据科学家使用PySpark跟踪功能，如前一章所述。

在此示例中，我们将重点关注转换以构建名为counts的数据集并将其保存到特定文件。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用PySpark，用户可以使用python编程语言中的RDD。内置库涵盖了数据驱动文档和组件的基础知识，有助于实现这一目标。