Spark简介

精华

小牛编辑

107浏览

2023-03-14

Apache Spark是一个开源集群计算框架。其主要目的是处理实时生成的数据。

Spark建立在Hadoop MapReduce的顶部。它被优化为在内存中运行，而Hadoop的MapReduce等替代方法将数据写入计算机硬盘驱动器或从计算机硬盘驱动器写入数据。因此，Spark比其他替代方案更快地处理数据。

Apache Spark历史

Spark由Matei Zaharia于2009年在加州大学伯克利分校的AMPLab发起。它于2010年根据BSD许可证开源。

2013年，该项目被Apache Software Foundation收购。2014年，Spark成为顶级Apache项目。

－ 数据集成：系统生成的数据不够整合，无法结合进行分析。要从系统中获取一致的数据，可以使用提取，转换和加载(ETL)等过程。Spark用于减少此ETL过程所需的成本和时间。

流处理：处理实时生成的数据(如日志文件)总是很困难。Spark能够运行数据流并拒绝潜在的欺诈性操作。
机器学习：由于数据量的增加，机器学习方法变得更加可行并且越来越准确。由于spark能够将数据存储在内存中并且可以快速运行重复查询，因此可以轻松处理机器学习算法。
交互式分析：Spark能够快速生成响应。因此，可以交互式地处理数据，而不是运行预定义的查询。