架构：数据系统Apache Hop简介以及与Kettle的异同

扶誉

2023-12-01

Apache Hop（Hop Orchestration Platform 的首字母缩写）是一种数据编排（data orchestration ）和数据工程平台（data engineering platform），旨在促进数据和元数据编制。Hop 可以让我们专注于问题的解决，而不受技术的阻碍。该项目起源于 Kettle，经过数年的重构，并于2020年9月进入 Apache 孵化器；2022年1月18日正式成为 Apache 顶级项目。

Hop 允许数据专业人员以可视化的方式工作，使用元数据来描述应如何处理数据。可视化设计使数据开发人员能够专注于他们想要做的事情，而不是需要如何完成该任务。这种对手头任务的关注让 Hop 开发人员比编写代码时更有效率。Hop 的目标是成为数据集成的未来，我们只需要对手头上的任务进行一次设计，然后通过 Apache Hop 在任何地方运行，比如 Hop 本地引擎、Spark、Flink、Google Dataflow 或 AWS EMR等。

Hop 被设计的尽可能灵活：其核心是小巧但功能强大的 Hop 引擎。所有的功能都是通过插件添加的：默认的 Hop 安装带有大约 400 个插件。我们可以根据需要删除或添加第三方插件，以定制 Hop，使其完全符合我们的需要。Hop 设计用于任何场景，从物联网到海量数据、本地、云端、裸操作系统或容器和 kubernetes。

Hop 的使用场景主要有以下几个方面：

利用云、集群和大规模并行处理环境，将大型数据集加载到数据库中；
数据仓库构建并支持渐变维度 (SCD, Slowly Changing Dimensions)、变更数据捕获 (CDC,Change Data Capture) 和代理键创建；
不同数据架构之

架构：数据系统Apache Hop简介以及与Kettle的异同

相关阅读

相关文章

相关问答

相关文档