让天下没有难做的大数据模型!
下面是弥勒佛框架解决的问题类型,括号中的斜体代表尚未实现以及预计实现的时间
监督式学习:最大熵分类模型(max entropy classifier),决策树模型(decision tree based models,2014 Q1)
非监督式学习:聚类问题(k-means,2014 Q1)
在线学习:在线梯度递降模型(online stochastic gradient descent)
神经网络(2014 Q2/3)
项目实现了下面的组件
多种数据集(in-mem,skip)
多种评价器(precision,recall,f-score,accuracy,confusion)和交叉评价(cross-validation)
多种优化器:协程并发L-BFGS,梯度递降(batch, mini-batch, stochastic),带退火的学习率(learning rate),L1/L2正则化(regularization)
稀疏向量(sparse vector)以存储和表达上亿级别的特征
特征辞典(feature dictionary)在特征名和特征ID之间自动翻译
现有的机器学习框架/软件包存在几个问题:
无法处理大数据:多数Python,Matlab和R写的训练框架适合处理规模小的样本,没有为大数据优化。
不容易整合到实际生产系统:standalone的程序无法作为library嵌入到大程序中。
模型单一:一个软件包往往只解决一个类型的问题(比如监督式或者非监督式)。
不容易扩展:设计时没有考虑可扩展性,难以添加新的模型和组件。
代码质量不高:代码缺乏规范,难读懂、难维护。
弥勒佛项目的诞生就是为了解决上面的问题,在框架设计上满足了下面几个需求:
处理大数据:可随业务增长scale up,无论你的数据样本是1K还是1B规模,都可使用弥勒佛项目。
为实际生产:模型的训练和使用都可以作为library或者service整合到在生产系统中。
丰富的模型:容易尝试不同的模型,在监督、非监督和在线学习等模型间方便地切换。
高度可扩展:容易添加新模型,方便地对新模型进行实验并迅速整合到生产系统中。
高度可读性:代码规范,注释和文档尽可能详尽,适合初学者进行大数据模型的学习。
MLF的本质是一种特别约定的再贷款,于2014年9月创设。即银行以高等级债权资产为担保,向央行借入基础货币。银行要支付利息,近期1年期MLF利息为 3.30%。银行通过MLF获得的资金,央行有投向要求:包括三农、小微等。 央行指出,此次扩大MLF担保品范围,突出了小微企业债、绿色债以及小微企业贷款、绿色贷款并优先接受为担保品,有利于缓解小微企业融资难、融资贵问题。 from: http:
我们都知道国家宏观调控经济的手段分为货币政策和财政政策,其中货币政策针对的主要是货币供应量和利率,央行需要把这两者控制在适合国家经济发展水平内,这就需要依靠各种工具和操作,MLF、SLF等就是具体的工具和操作。 LPR:全称为贷款市场报价利率,是商业银行对其最优质的客户执行的贷款利率,其他贷款利率可以在此基础上加减点生成。LPR由18家报价行于每月20日(遇节假日顺延)9时前,以0.05个百分点为
过拟合和正则化 Bad generalization指的是一个状态,在这个VC维下,Error_in小,Error_out大。 Overfitting指的是一个过程,在VC维变大过程中,Error_in变小,Error_out变大。 Overfitting(过拟合)指的是当VC维很大时,学到的MODEL不能很好的举一反三。在训练数据上取得很好的效果,但是对于训练数据以外的其他数据(如测试数据),预
Introduction MLflow is an open source platform to manage the ML lifecycle, including experimentation, reproducibility, deployment, and a central model registry. Components MLflow Tracking: Record and
MLflow模型 MLflow模型是用于打包机器学习模型的标准格式,可用于各种下游工具 - 例如,通过REST API实时提供服务或在Apache Spark上进行批量推理。该格式定义了一种约定,允许您以不同的“风格”保存模型,这些“风味”可以被不同的下游工具理解。 目录 存储格式 API模型 内置型号口味 模型定制 内置部署工具 存储格式 每个MLflow模型都是一个包含任意文件MLmodel
以下信息由搭配Online收集整理自网络 人民银行4月15日公告称,从今日开始,人民银行对农村金融机构和仅在省级行政区域内经营的城市商业银行定向下调存款准备金率1个百分点,分两次实施到位,每次下调0.5个百分点。今日为实施该政策的首次存款准备金率调整,释放长期资金约2000亿元。公开信息显示,4月17日将有2000亿元MLF到期。 根据公开信息,3月份开展的1000亿元MLF中标利率为3.15%,
有关TensorFlow与其他框架的详细对比可以阅读: https://zhuanlan.zhihu.com/p/25547838 01 TensorFlow的编程模式 编程模式分为两种:命令式编程与符号式编程 前者是我们常用的C++,java等语言的编程风格如下 命令式编程看起来逻辑非常清晰,易于理解。而符号式编程涉及较多的嵌入和优化,如下 执行相同的计算时c,d可以共用内存,使用Tenso
Kubernetes 在大数据与机器学习中的实践案例。
Kubeflow 是 Google 发布的用于在 Kubernetes 集群中部署和管理 tensorflow 任务的框架。主要功能包括 用于管理 Jupyter 的 JupyterHub 服务 用于管理训练任务的 Tensorflow Training Controller 用于模型服务的 TF Serving 容器 部署 部署之前需要确保 一套部署好的 Kubernetes 集群或者 Mini
Kubernetes 从 v1.8 开始支持原生的Apache Spark应用(需要Spark支持Kubernetes,比如v2.2.0-kubernetes-0.4.0),可以通过 spark-submit 命令直接提交Kubernetes任务。比如计算圆周率 bin/spark-submit --deploy-mode cluster --class org.apache.spark.
Python 有着海量的可用于数据分析、统计以及机器学习的库,这使得 Python 成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的 Python 包。 Scipy 技术栈 Scipy 技术栈由一大批在数据科学中被广泛使用的核心辅助包构成,可用于统计分析与数据可视化。由于其丰富的功能和简单易用的特性,这一技术栈已经被视作实现大多数数据科学应用的必备品了。
主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习课程初级 数学基础中级 机器学习课程中级 推荐书籍列表 机器学习专项领域学习 致谢 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes等其他资
机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。 机器学习算法 _图片来自scikit-learn_。 机器学习全景图 _图片来自http://www.shivonzilis.com/_。
机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。