http://h2o-release.s3.amazonaws.com/h2o/rel-xu/4/docs-website/h2o-py/docs/modeling.html
http://h2o-release.s3.amazonaws.com/h2o/rel-turchin/9/docs-website/h2o-docs/index.html
http://h2o-release.s3.amazonaws.com/h2o/rel-xu/4/docs-website/h2o-py/docs/intro.html
H2O是开源的,分布式的,基于内存的,可扩展的机器学习和预测分析框架,适合在企业环境中构建大规模机器学习模型。H2O核心代码使用Java编写,数据和模型通过分布式 Key/Value 存储在各个集群节点的内存中。H2O的算法使用Map/Reduce框架实现,并使用了Java Fork/Join框架来实现多线程。
H2O是个机器学习平台,H2O的核心优势在于其紧密集成的高性能机器学习组件。它支持最常用的统计及机器学习算法,同时内置自动机器学习功能。
H2O的核心代码用Java编写,其REST API(应用程序编程接口创建方式)允许从外部程序或脚本访问H2O的所有功能。 平台上有用于R、Python、Scala、Java、JSON和CoffeeScript / JavaScript的接口,以及内置网页端界面Flow
Sparkling Water:可扩展的H2O的机器学习算法与Spark的功能相结合。 使用Sparkling Water,用户可以从Scala / R / Python驱动计算,并利用H2O Flow UI,为应用程序开发人员提供了理想的机器学习平台。
如果用户需管理大型集群以满足数据处理需求,并想在Spark和H2O平台互相传输数据,该工具将十分有用。
H2O4GPU 是一个开源的GPU加速机器学习包;H2O Driverless AI 是H2O.ai旗下自动机器学习的旗舰产品;
H2O-3是H2O的最新版本;
H2O支持通过R与Python进行引入包的方式进行模型的开发:可以使用在Python或R中引入H2O包的形式进行该工具的使用,也可以下载软件在UI界面进行托拉拽的操作。
使用H2O之前请读者务必在服务器或本地安装Java
AUC是指 随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值 比 分类器输出该负样本为正的那个概率值 要大的可能性
AUC越大,表明方法效果越好。
https://cloud.tencent.com/developer/article/1420651:自动训练,分布式打分
若使用sklearn这样的经典机器学习包在训练完模型后,模型本身是不支持在Hive集群进行分布式打分的。当需要打分的数据集过大的时候,没有办法一次性将其读入内存并进行打分,因此只能通过batch读取的方式按批次来进行预测打分,这样一来就需要用户花时间来写一些Python或者bash的脚本。H2O提供了一个非常好的模型部署流程,模型的打分在集群上就是分布式的,速度会非常快
==============https://baijiahao.baidu.com/s?id=1636305706753330522&wfr=spider&for=pc :H2O全家桶
所有python新会话开始时都要创建python客户端与H2O集群的连接。集群指一组协作的H2O节点,作业上传至集群时,集群内所有节点都会处理一部分作业。
启动H2O集群:
import h2o
h2o.init()
关闭集群:
h2o.shutdown()
默认情况下,H2O实例将占用所有内核和约25%的系统内存。但若想为其分配一块固定内存,可以在init函数中指定。比如说,想使用4GB内存,那么只需2个内核,函数如下所示:
h2o.init(nthreads=2,max_mem_size=4)
H2O一旦启动并运行,只需将浏览器转到页面 即可进入Flow的用户界面。