敏捷数据科学 - SparkML( SparkML)

优质
小牛编辑
157浏览
2023-12-01

机器学习库也称为“SparkML”或“MLLib”,由常用的学习算法组成,包括分类,回归,聚类和协同过滤。

为什么要学习SparkML for Agile?

Spark正在成为构建机器学习算法和应用程序的事实平台。 开发人员使用Spark在Spark框架中以可扩展和简洁的方式实现机器算法。 我们将通过该框架学习机器学习,其实用程序和算法的概念。 敏捷总是选择一个框架,它可以提供简短快速的结果。

ML算法

ML算法包括常见的学习算法,例如分类,回归,聚类和协同过滤。

特性 (Features)

它包括特征提取,转换,降维和选择。

Pipelines

管道提供了构建,评估和调整机器学习管道的工具。

流行的算法

以下是一些流行的算法 -

  • 基本统计

  • Regression

  • Classification

  • 推荐系统

  • Clustering

  • 维度降低

  • 特征提取

  • Optimization

推荐系统

推荐系统是信息过滤系统的子类,其寻求用户对给定项目建议的“评级”和“偏好”的预测。

推荐系统包括各种过滤系统,使用如下 -

协同过滤

它包括根据过去的行为建立模型以及其他用户做出的类似决策。 该特定过滤模型用于预测用户有兴趣接受的项目。

基于内容的过滤

它包括过滤项目的离散特征,以推荐和添加具有类似属性的新项目。

在随后的章节中,我们将侧重于使用推荐系统来解决特定问题,并从敏捷方法论的角度提高预测性能。