sk-dist

PySpark中的分布式scikit-learn元估计器
授权协议 Apache
开发语言 Python
所属分类 神经网络/人工智能、 机器学习/深度学习
软件类型 开源软件
地区 不详
投 递 者 萧渝
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

PySpark中的分布式scikit-learn元估计器

sk-dist是一个用于机器学习的Python模块,构建于scikit-learn之上,并在Apache 2.0软件许可下发布。 sk-dist模块可以被认为是“分布式scikit-learn”,因为它的核心功能是将scikit-learn内置的joblib并行化的meta-estimator训练扩展到spark。

主要特点

  • 分布式训练 -  sk-dist使用PySpark将scikit-learn元估计器的训练并行化。这允许对这些估计器进行分布式训练,而不对任何一台机器的物理资源进行任何限制。在所有情况下,火花伪像会自动从拟合估算器中剥离。然后可以对这些估计器进行酸洗和未腌制以用于预测任务,在预测时间对他们的scikit-learn对应物进行相同的操作。支持的任务是:
  • 网格搜索:分配超参数优化技术,特别是GridSearchCV和RandomizedSeachCV,使得每个参数集候选被并行训练。
  • 多类策略:分布多类分类策略,特别是OneVsRestClassifier和OneVsOneClassifier,使得每个二进制问题都是并行训练的。
  • 树集合:分布和回归的决策树集合,特别是RandomForest和ExtraTrees,是分布式的,以便每个树都是并行训练的。
  • 分布式预测 -  sk-dist提供了一个预测模块,该模块使用拟合的scikit-learn估算器为PySpark DataFrames构建矢量化UDF。这分配了scikit-learn估计器的predict和predict_proba方法,通过scikit-learn实现大规模预测。
  • 特征编码 -  sk-dist提供了一个名为Encoderizer的灵活的特征编码实用程序,它使用默认行为或用户定义的可自定义设置对混合类型的特征空间进行编码。它特别针对文本功能,但它还处理数字和字典类型的功能空间。
  • NN-search 最近邻检索(Nearest Neighbor Search)的简单综述 https://blog.csdn.net/lovego123/article/details/67638789 LSH 关于c-ANN https://blog.csdn.net/qq_26304333/article/details/70486035 LSH(Locality Sensitive Has

  • 准备 Step1: 首先下载项目: //下载项目 git clone https://github.com/allwefantasy/spark-deep-learning.git . //切换到release 分支 git checkout release Step2: 构建pyspark环境: 确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之

 相关资料
  • 问题内容: 我有一些文本类型的列的熊猫数据。这些文本列中包含一些NaN值。我想做的是通过(用最常用的值替换NaN )来估算那些NaN 。问题在于实施。假设有一个具有30列的Pandas数据框df,其中10列属于分类性质。一旦我运行: Python会生成一个,其中’run1’是带有分类数据的第一列中的普通(不丢失)值。 任何帮助将非常欢迎 问题答案: 要将平均值用于数字列,将最频繁的值用于非数字列,

  • scikit-learn 是一个 Python 的机器学习项目。是一个简单高效的数据挖掘和数据分析工具。基于 NumPy、SciPy 和 matplotlib 构建。 Installation 依赖 scikit-learn 要求: Python (>= 2.7 or >= 3.3) NumPy (>= 1.8.2) SciPy (>= 0.13.3) 运行示例需要 Matplotlib >= 1

  • Introduction to Machine Learning with scikit-learn This video series will teach you how to solve Machine Learning problems using Python's popular scikit-learn library. There are 10 video tutorials tot

  • 问题内容: 我需要将数据分为训练集(75%)和测试集(25%)。我目前使用以下代码进行操作: 但是,我想对训练数据集进行分层。我怎么做?我一直在研究该方法,但不允许我指定75%/ 25%的划分,而是仅对训练数据集进行分层。 问题答案: [更新为0.17] 请参阅以下文档: [/更新为0.17] 有一个拉要求在这里。但是,您可以根据需要简单地进行 训练和测试索引的使用。

  • 校验者: @Kyrie @片刻 翻译者: @冰块 数据集 Scikit-learn可以从一个或者多个数据集中学习信息,这些数据集合可表示为2维阵列,也可认为是一个列表。列表的第一个维度代表 样本 ,第二个维度代表 特征 (每一行代表一个样本,每一列代表一种特征)。 样例: iris 数据集(鸢尾花卉数据集) >>> from sklearn import datasets >>> iris = d

  • K-means k是一个超参数,表示要聚类成多少类。K-means计算方法是重复移动类的重心,以实现成本函数最小化,成本函数为: 其中μk是第k类的重心位置 试验 构造一些样本用户试验,如下: # coding:utf-8 import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import matplotlib.pyplot as pl

  • 你可以使用 Keras 的 Sequential 模型(仅限单一输入)作为 Scikit-Learn 工作流程的一部分,通过在此找到的包装器: keras.wrappers.scikit_learn.py。 有两个封装器可用: keras.wrappers.scikit_learn.KerasClassifier(build_fn=None, **sk_params), 这实现了Scikit-Le

  • 校验者: @小瑶 翻译者: @片刻 Note 如果你想为这个项目做出贡献,建议你 安装最新的开发版本 . 安装最新版本 Scikit-learn 要求: Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 如果你已经有一个安全的 numpy 和 scipy,安装 scikit-learn 最简单的方法是使用 pip pip