当前位置: 首页 > 文档资料 > PySpark 中文教程 >

介绍

优质
小牛编辑
134浏览
2023-12-01

在本章中,我们将了解Apache Spark是什么以及PySpark是如何开发的。

Spark - 概述

Apache Spark是一个闪电般快速的实时处理框架。 它进行内存计算以实时分析数据。 由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能,因此它开始出现。 因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。 Apache Spark有自己的集群管理器,可以托管其应用程序。 它利用Apache Hadoop进行存储和处理。 它使用HDFS (Hadoop分布式文件系统)进行存储,它也可以在YARN上运行Spark应用程序。

PySpark - 概述

Apache Spark是用Scala programming language编写的。 为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。 使用PySpark,您也可以使用Python编程语言中的RDDs 。 正是由于一个名为Py4j的库,他们才能实现这一目标。

PySpark提供了PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。 今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集。 将Python与Spark集成对他们来说是一个福音。