当前位置: 首页 > 软件库 > 大数据 > 其他 >

Ploomber

快速构建数据管道
授权协议 Apache-2.0
开发语言 Python
所属分类 大数据、 其他
软件类型 开源软件
地区 不详
投 递 者 谷弘致
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Ploomber 是构建数据管道的最快方式。使用你喜欢的编辑器(Jupyter、VSCode、PyCharm)进行交互式开发,并在不改变代码的情况下部署云(Kubernetes、Airflow、AWS Batch 和 SLURM)。只需一个命令就能将它们重构为模块化流水线。

# ML pipeline example
ploomber examples -n templates/ml-basic -o ml-basic
cd ml-basic

# install dependencies
pip install -r requirements.txt

# run pipeline
ploomber build

主要特点

快速开始

一个简单的 YAML API 可以快速上手,一个强大的 Python API 可以提供完全的灵活性。

更短的开发周期

自动缓存管道以前的结果,并且仅重新计算自上次执行以来已更改的任务。

随处部署

在单台机器上作为 shell 脚本运行,或者在KubernetesAirflowAWS BatchSLURM中分布式运行。

从旧版 notebooks 自动迁移

带上你的旧 monolithic notebooks,会自动将它们转换为可维护的模块化管道。

 相关资料
  • 本文向大家介绍使用Spring Boot快速构建基于SQLite数据源的应用,包括了使用Spring Boot快速构建基于SQLite数据源的应用的使用技巧和注意事项,需要的朋友参考一下 为了提供一个单包易部署的服务器应用,考虑使用Spring Boot,因为其集成了Apache Tomcat,易于运行,免去绝大部分了服务器配置的步骤。 项目初始化 首先从mvn archetype:generat

  • 问题内容: 该问题已清除,重要信息移至下面的答案。 我对内存管理有一些疑问。 我正在构建照片编辑应用程序。因此,保持较低的内存使用量很重要。另外,我不打算发布代码,因为在做一件特定的事情时,我不会发生大的内存泄漏。我将所有发生的一切都丢失了几KB / MB。遍历数万行代码以查找千字节并不有趣;) 我的应用使用了核心数据,许多cifilter内容,位置和基础知识。 我的第一个视图只是一个表视图,它占

  • tl;dr Apache Beam管道步骤涉及构建docker图像;如何使用谷歌数据流运行这个管道?存在哪些替代方案? 我目前正在尝试使用谷歌的数据流服务和apache梁(python)迈出第一步。 简单的例子很简单,但当外部软件依赖性开始发挥作用时,事情就会让我感到困惑。似乎可以使用自定义docker容器来设置自己的环境[1][2]。虽然这对大多数依赖项来说都很好,但如果依赖项是docker本身

  • 问题内容: 我想快速创建一个像这样的json: 如何创建此json? 问题答案: 创建您的对象,在这种情况下为字典: 从对象创建JSON数据: 如果需要,请使用JSON数据作为字符串:

  • java中是否有内置的数据结构可以为排序列表提供高效的性能?我还需要修改排序列表,包括插入和删除操作。我首先使用arraylist。我认为在插入和删除的情况下,arraylist的性能可能不够好。什么样的数据结构适合使用?如果没有足够快的内置数据结构,在设计自定义数据结构之前,我可以朝哪个方向走?

  • 我现在正在研究一个有趣的问题,我想知道是否有人成功地实现了高性能的解决方案。 我有一组“区间”,意思是一个数组,每个数组的形式 所有这些值都是实值。现在我有一个数字,我想问,哪些区间包含这些数字?我需要能够很快回答这个问题。我可以根据需要进行预处理,空间比时间更重要。你会推荐什么方法?提前谢谢!