OpenMLDB

面向机器学习应用的数据库
授权协议 Apache
开发语言 C/C++ Python
所属分类 神经网络/人工智能、 机器学习/深度学习
软件类型 开源软件
地区 国产
投 递 者 张逸清
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

OpenMLDB是一个面向机器学习应用提供正确、高效数据供给的开源数据库。除了超过10倍的机器学习数据开发效率的提升,OpenMLDB也提供了统一的计算与存储引擎减少开发运维的复杂性与总体成本。

系统特性

  • 一致性

    OpenMLDB首先保证在线和离线特征计算一致性,科学家使用OpenMLDB建模生成的特征,可规避特征穿越等问题,上线后使用相同LLVM IR进行编译优化,保证与在线特征计算逻辑一致。其次保证数据存储一致性,数据从离线到在线进行实时同步,用户不需要为离线和在线管理不同数据源,也避免数据不一致对特征和模型带来的影响。

  • 高性能

    OpenMLDB基于C++和LLVM实现了原生SQL编译器,内置了数十种物理计划和表达式优化过程,可针对不同硬件环境动态生成二进制码,内存结构针对特征存储优化。最终特征存储空间和成本比同类产品可降低9倍,在线实时特征计算性能提升9倍,离线批处理计算性能比同类产品也提升6倍以上。

  • 高可用

    OpenMLDB的大规模并行计算服务和数据库存储服务,都支持多节点分布式高可用特性,可以自动Failover避免单点故障。

  • SQL支持

    OpenMLDB支持用户友好的SQL接口,兼容大部分ANSI SQL语法以及针对AI场景拓展了新的SQL特性。以时序特征抽取为例,支持标准SQL的Over Window语法,还针对AI场景需求进行拓展,支持基于样本表滑窗的Window Union语法,实时计算引擎支持基于当前行的Request Mode窗口聚合计算。

  • AI优化

    OpenMLDB以面向ML应用开发优化为目标,架构设计以及实现上都针对AI进行大量优化。在存储方面以高效的数据结构存储特征数据,无论是内存利用率还是实时查询效率都比同类型产品高数倍,而计算方面提供了机器学习场景常用的特殊拼表操作以及特征抽取相关UDF/UDAF支持,基本满足生产环境下机器学习特征抽取和上线的应用需求。

  • 低门槛

    OpenMLDB使用门槛与普通数据库接近,无论是建模科学家还是应用开发者都可以使用熟悉的SQL进行开发,并且同时支持ML应用落地所必须的离线大数据批处理服务以及在线特征计算服务,使用一个数据库产品就可以低成本实现AI落地闭环。

快速开始

使用OpenMLDB快速开发和上线ML应用,以Kaggle比赛Predict Taxi Tour Duration项目为例。

# 启动docker镜像
docker run -it 4pdosc/openmldb:0.1.0 bash

# 初始化环境
sh init.sh

# 导入行程历史数据到OpenMLDB
python3 import.py

# 使用行程数据进行模型训练
python3 train.py ./fe.sql /tmp/model.txt

# 使用训练的模型搭建链接OpenMLDB的实时推理HTTP服务
sh start_predict_server.sh ./fe.sql 8887 /tmp/model.txt

# 通过http请求发送一个推理请求
python3 predict.py

系统架构

  • OpenMLDB作为分布式系统,模式多样、客户端丰富,初次使用可能会遇到安装部署或者运行使用方面的问题。 本文将从新手使用的角度,为大家讲解如何进行诊断调试,以及如何向OpenMLDB社区技术人员反馈疑问或提供清晰的使用信息。 创建 OpenMLDB 与连接 首先,我们建议不熟悉分布式多进程管理的新手使用 docker 创建 OpenMLDB,方便快速上手。待熟悉 OpenMLDB 各组件后,再尝

  • Openmldb0.53 踩坑 集群部署操作 官网示例异常: 官方提供镜像直接使用的时候 发现配置集群模式无法执行。怀疑是缺少了某个初始化步骤,导致Zookeeper中的数据不正确,db中的库没有正确初始化创建。 client执行中显示无法连接taskermanager 如果出现了 offline任务无法执行 可以看下taskmanager日志 如果发现是缺失了 JobInfo table 可以自

 相关资料
  • #美团求职进展汇总# #你收到了团子的OC了吗# 美团履约平台技术部,配送时间策略组 自我介绍,问了我学校和清华什么关系 1、上来一道算法题:找最长的回文串。用动态规划dp秒了。然后问怎么优化空间复杂度,想到从两遍同时找最长回文串来做。 2、然后根据简历来问,没想到简历拿错了,没拿我最新更新的简历。让我讲最拿手的项目。我共享屏幕展示了我最新的简历,讲我的SCI科研项目讲了半个小时。 3、问我ten

  • 从sklearn加载流行数字数据集。数据集模块,并将其分配给可变数字。 分割数字。将数据分为两组,分别命名为X_train和X_test。还有,分割数字。目标分为两组Y_训练和Y_测试。 提示:使用sklearn中的训练测试分割方法。模型选择;将随机_状态设置为30;并进行分层抽样。使用默认参数,从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。 在测试数据集上评估模型的准确

  • 1. 手撕,给出中序遍历和后序遍历,构建树 2. 介绍树模型,(GBDT,XGBoost等) 3. 项目为什么用XGBoost 4. 介绍LR 6. XGB和LR的区别,各适用哪些场景。 7. 项目中Lovain算法是个什么算法。 8. 项目中使用的评价指标 9. 准确率有什么缺点和问题 10. AUC 11. 优化算法 12. 激活函数 13. 特征提取方法? 14. CNN和MLP区别,CNN

  • Kubernetes 在大数据与机器学习中的实践案例。

  • 我目前正在开发一个机器学习应用程序。请在此代码中帮助我 - 当我上传大数据集时,我遇到了一个错误。 代码如下: 然后: 错误是: 带有关于错误的附加行和信息: /预处理/字典更新序列元素#0处的ValueError的长度为1;2是必需的请求方法:POST请求URL:http://127 . 0 . 0 . 1:8000/preprocessing/Django版本:2.2.4异常类型:ValueE

  • 支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。

  • 遇到了全是技术岗的群面,一起讨论怎么ai技术加入产品 总结:一定要读题!!!针对题来每点说自己的想法,最好把自我介绍压缩一下,组里好几个人没有说完就被下一个了,而且顺序不是按照公众号的个人编号。 读题5min,自我介绍➕想法1.5min,讨论20min,总结5min 就算没有抢到主持人,中途理清团队的思路也很重要!!!我的组两个技术大佬一直不统一。。。导致其他人也没有发表什么明确的想法和意见,我发

  • Kubeflow 是 Google 发布的用于在 Kubernetes 集群中部署和管理 tensorflow 任务的框架。主要功能包括 用于管理 Jupyter 的 JupyterHub 服务 用于管理训练任务的 Tensorflow Training Controller 用于模型服务的 TF Serving 容器 部署 部署之前需要确保 一套部署好的 Kubernetes 集群或者 Mini