当前位置: 首页 > 文档资料 > PySpark 中文教程 >

教程

优质
小牛编辑
137浏览
2023-12-01

Apache Spark是用Scala编程语言编写的。 为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。 使用PySpark,您也可以使用Python编程语言中的RDD。 正是由于一个名为Py4j的库,他们才能实现这一目标。 这是一个介绍性教程,涵盖了数据驱动文档的基础知识,并解释了如何处理其各种组件和子组件。

听众 (Audience)

本教程是为那些有志于从事编程语言和实时处理框架的专业人士准备的。 本教程旨在让读者在使用PySpark及其各种模块和子模块时感到舒适。

先决条件 (Prerequisites)

在继续本教程中给出的各种概念之前,假设读者已经知道编程语言和框架是什么。 除此之外,如果读者对Apache Spark,Apache Hadoop,Scala编程语言,Hadoop分布式文件系统(HDFS)和Python有充分的了解,那将非常有用。