本文由 「AI前线」原创,原文链接: Apache新成员:LinkedIn分布式数据集成框架Gobblin
作者|Abhishek Tiwari
译者|核子可乐
编辑|Emily
AI 前线导读:”LinkedIn 又向 Apache 基金会贡献了一个新的开源项目:Apache Gobblin!”
下文转载翻译自 LinkedIn Engineering 博客:
Gobblin 是一套分布式数据集成框架,旨在简化大数据集成工作当中的各类常见任务,具体包括数据流与批量生态系统的提取、复制、组织与生命周期管理。
Gobblin 的发展速度非常惊人。自 2014 年 12 月问世以来,Gobblin 一直在开源世界当中快速消化海量大数据资源。目前,其已经由原本主要立足 Hadoop 之上以 mapreduce 模式运行的离线数据接收框架,逐步转化为一套全面而强大的生态系统,且功能涵盖执行环境、数据速度、规模化、连接器以及其它生态系统增强领域中的不同维度。
LinkedIn 拥有丰富的开源项目贡献历史,并已经成为 Apache 软件基金会(旗下拥有 Kafka、Samza 以及 Helix 等多个项目)中的重要成员。延续这一趋势,我们相信 Gobblin 已经准备好加入 Apache 项目家族的行列。因此,我建议 Gobblin 转型为 Apache 孵化器项目。令人振奋的是,我们的提案得到了孵化器项目委员会(简称 PMC)的一致认可,并于 2017 年 2 月开始了我们的孵化项目转型旅程。自此以来,我们完成了必要的内部转型流程并贡献了相关代码,并正式开始 Apache 旗下的发展道路。
为何选择 Apache?
Apache 软件基金会(简称 ASF)为目前全球最具影响力的开源机构之一。Apache 项目支持着超过 2 亿个网站(占互联网网站总数的一半),并成为世界上众多最具价值企业的(技术)支柱。Gobblin 已经陆续得到 LinkedIn、苹果、Paypal 等企业以及 CERN、Sandia 国家实验室等研究机构的广泛采用,我们相信其作为 Apache 项目将继续维持稳定的运作与持久能力,并允许不断发展的技术社区在“Apache 道路”上继续为其添砖加瓦。
Gobblin 未来展望
自我们发布上一篇博文以来,Gobblin 在内部与外部社区贡献的共同推动下迎来了一系列重大变化。下面,我们将概述这一阶段中 Gobblin 中出现的令人兴奋的增强功能:
- 多执行模式: Gobblin 现在能够以 Embedded、CLI、Standalone、Mapreduce 以及 Cluster(裸机、AWS 以及 Yarn)模式运行。
- 流与批量处理支持: Gobblin 的核心引擎现在支持批量(有限)以及流(无限)数据处理能力。在批量处理模式下,我们已经能够配合独立、集群、Map-Reduce、Hive 以及 Dali 实现运作,并计划在今年之内实现对 Spark 的支持。同样的,我们还将进一步扩展原生流功能,包括在今年之内对接 Samza 与 Brooklin 等系统。
- 全局限制: Gobblin 现在支持在任意 Gobblin 执行模式下实现资源的全局限制(例如 API 配额)。这是一项通用性基础设施功能,适用于任何分布式系统。
- Gobblin 即服务: 此举旨在构建起一套数据管理 PaaS(平台即服务)方案,可对服务背后的民间构数据移动及部署处理(无论是否基于 Gobblin)进行封装与统一化处理。
展望未来,我们将致力于继续推动 Gobblin 项目的快速发展,同时帮助社区持续发展并适应“Apache 道路”。
自去年年初加入 Apache 孵化器计划以来,我们已经在这方面迎来良好的进展势头。Apache Gobblin 社区成员在 Gobblin 生态系统当中提出、建立并启动了一系列关键性发展成果,具体包括:
- Kafka 10 支持能力
- 状态存储强化
- AWS 模式增强与自动扩展能力
- Mesos 支持提议
- Gobblin 即服务增强提议
- 多款新型连接器
- 管理员 UI 稳定性与增强。
我们还进一步邀请大家体验 Gobblin 并为该项目的 Apache 发展之旅贡献力量。
感兴趣的读者可以通过多种方式加入 Apache Gobblin 社区,包括贡献新功能、进行技术布道,或者帮助社区更新说明文档。请点击此处加入 Gobblin 的用户或开发者邮件列表。也可以点击此处访问 Gitter 频道。
AI 前线未来将密切关注 Apache Gobblin 的发展,如果你有关于 Apache Gobblin 的最新消息、使用介绍或实践经验想与更多人分享,请发送邮件至 natalie.cai@geekbang.org(请在邮件标题中备注【Apache Gobblin】),欢迎进一步交流。
原文链接:
engineering.linkedin.com/blog/2018/0…
更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可获得《AI前线》系列PDF迷你书和技能图谱。