当前位置: 首页 > 文档资料 > Spark 编程指南 >

Spark RDDs

优质
小牛编辑
127浏览
2023-12-01

Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。

  • 并行集合
  • 外部数据集
  • RDD 操作 <<<<<<< HEAD
  • 传递函数到 Spark
  • 使用键值对
  • Transformations
  • Actions
  • RDD持久化 =======
    • 传递函数到 Spark
    • 使用键值对
    • Transformations
    • Actions
  • RDD 持久化

master