介绍

优质

小牛编辑

144浏览

2023-12-01

在本章中，我们将了解Apache Spark是什么以及PySpark是如何开发的。

Spark - 概述

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。

除了实时和批处理之外，Apache Spark还支持交互式查询和迭代算法。 Apache Spark有自己的集群管理器，可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用HDFS （Hadoop分布式文件系统）进行存储，它也可以在YARN上运行Spark应用程序。

PySpark - 概述

Apache Spark是用Scala programming language编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言中的RDDs 。正是由于一个名为Py4j的库，他们才能实现这一目标。

PySpark提供了PySpark Shell ，它将Python API链接到spark核心并初始化Spark上下文。今天，大多数数据科学家和分析专家都使用Python，因为它具有丰富的库集。将Python与Spark集成对他们来说是一个福音。