本文讨论 Azure 和 Alibaba Cloud 在其各自的云环境中提供的大数据服务的主要区别和相似之处,本文主要讨论以下服务类型情况和它涵盖以产品:
以下表格列出了 Azure 大数据产品与 Alibaba Cloud 大数据产品的对比。
特性 | Azure | Alibaba Cloud |
---|---|---|
数据计算 | Azure HDInsight | Alibaba Cloud MaxCompute |
数据业务流程 | Azure Data Factory Azure Data Catalog | Alibaba Cloud DataWorks |
对数据进行转换,根据需要对数据进行过滤处理和计算。
Azure HDInsight 与Alibaba Cloud MaxCompute 的特性和术语对应关系如下::
功能分类 | Alibaba Cloud MaxCompute | Azure HDInsight |
---|---|---|
数据通道 | Tunnel 批量上传下载/基于SDK开发的插件:DTS、Sqoop、Kettle、CLT | Kafka |
DataHub 实时传输/基于SDK开发的插件:OGG、Flume、LogStash、Flunted | ||
数据存储 | 文件压缩存储RaidFile机制 | 默认使用Azure存储中的Blob容器 |
计算及分析任务 | SQL(Hive-like SQL)、UDF | 支持 |
MapReduce | 支持 | |
图计算 | 不支持 | |
非结构化数据处理 | 支持 | |
Spark | 支持 | |
ElasticSearch | N/A | |
BigGraph | N/A | |
系统安全 | 权限管理模型: 项目空间的用户及授权管理 跨项目空间的资源分享 项目空间的数据保护 项目空间的安全配置 | 通过 Azure 虚拟网络、加密以及与 Azure Active Directory 集成保护企业数据资产 |
ACL授权 | ||
Policy授权 | ||
Package资源分享 | ||
LabelSecurity访问控制 | ||
开放性/开源生态 | API | 支持Hadoop、Spark、交互式查询(LLAP)、Kafka、Storm、HBase和ML Services。 |
SDK:Python、Java | ||
日志导入工具:Fluentd、Flume | ||
客户端:CLT、Studio | ||
开源代码:R、Sqoop、ogg、eclipse、JDBCDriver | ||
最大规模 | 单集群1W+、可多集群 | Hadoop/Hbase集群 |
弹性伸缩 | 支持 | 支持 |
热升级 | 支持 | N/A |
准实时 | 支持 | N/A |
高可用 | 存储、调度系统高可用,无单点故障 | HDInsight 群集提供两个头节点 |
Azure HDInsight
Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,用于快速且经济有效地处理大量数据。支持Hadoop、Spark、Hive、LLAP、Kafka、Storm、R 等最常用的开源框架,并通过这些框架启用各种各样的方案,例如提取、转换和加载 (ETL)、数据仓库操作、机器学习、IoT。Azure HDInsight是适用于企业的分析服务,具有完全托管、全面且开源的特点。
Alibaba Cloud MaxCompute
Alibaba Cloud MaxCompute 是国内最大的大数据云服务平台,提供海量的数据存储,海量的数据计算,多组织间的数据交换。MaxCompute是Alibaba group自主研发的一套大型的分布式计算系统,MaxCompute支持多集群双活/灾备,用户不用关注基础设施稳定性,而是关注自己的业务内容,MaxCompute本身提供服务的一致性与连续性。Alibab Cloud MaxCompute 提供了一组丰富的大数据开发工具,改进了数据的导入和导出的解决方案,以及各种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。
Azure HDInsight产品优势
Azure HDInsight产品劣势
Azure HDInsight底层架构基于开源Hadoop、Spark等产品。MaxCompute通过高并发处理和执行计划优化,在CPU-IO 敏感性计算及大数据量Join计算等场景表现更优。在数据量及资源量同比放大情况下,MaxCompute 的计算时间更加稳定, 能够充分利用分配到的计算资源,计算和资源量呈线性关系增长。在相同数据量,相同资源下,相同测试集同等标准情况下,MaxCompute整体表现性能更优。此外,MaxCompute高度产品化,使用门槛低。
综上所述,在数据计算领域,MaxCompute的优势在于:
对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统,完成整个数据的采集、转换、开发、分析流程。
Azure Data Factory、Azure Data Catalog 与 Alibaba Cloud DataWorks 的特性和术语对应关系如下:
功能分类 | 特性 | Azure Data Factory | Azure Data Catalog | Alibaba Cloud DataWorks |
---|---|---|---|---|
数据采集 | 实时采集 | 不支持 | N/A | 支持 |
批量采集 | 支持 | N/A | 支持 | |
客户端采集 | 不支持 | N/A | 支持 | |
本地数据 | 支持(部署代理网关) | N/A | 支持 | |
云数据 | 支持 | N/A | 支持 | |
异构数据源 | Azure存储、数据库、文件 | N/A | 支持20多种(RDBMS、NoSQL、MPP、非结构化存储、大数据存储等) | |
数据管理 | 搜索发现数据 | N/A | 支持 | 支持 |
捕获元数据 | N/A | 支持 | 支持 | |
版本管理 | N/A | 不支持 | 不支持 | |
捕获schema变化 | N/A | 不支持 | 不支持 | |
自动识别检测 | N/A | 不支持 | 不支持 | |
批注/阐述 | N/A | 支持 | 不支持 | |
收藏/结构化标签 | N/A | 支持 | 不支持 | |
数据血缘 | N/A | N/A | 支持 | |
数据转换开发 | 自动生成代码 | 不支持 | N/A | 不支持 |
在线编辑 | 不支持 | N/A | 支持 | |
版本管理 | 不支持 | N/A | 支持 | |
方式 | 基于计算引擎(HDInsight, Data Lake Analytices U-SQL, Machine Leaning,R) | N/A | 基于计算引擎(ODPS SQL, SHELL, PAI) | |
编排及任务调度 | 触发方式 | 周期 | N/A | 周期、API触发 |
serveless | 支持 | N/A | 支持 | |
自动重跑 | 支持 | N/A | 支持 | |
监控告警 | 监控仪表盘 | 支持 | N/A | 支持 |
告警 | 支持 | N/A | 支持 | |
数据质量 | 离线监控 | 不支持 | 不支持 | 支持 |
在线监控 | 不支持 | 不支持 | 支持 | |
自定义监控规则 | 不支持 | 不支持 | 支持 | |
开放性 | API | 支持 | 支持 | 支持 |
SDK | 支持 | 支持 | 不支持 |
Azure Data Factory
Azure的数据集成开发工具Data Factory上线已久,集合了数据集成、数据开发、任务监控等功能。2017年下半年,Data Factory发布V2版本,重构了功能模型,新增了可视化拖拽编辑、复杂流程控制,加强了任务监控功能,在复杂场景的胜任能力以及用户体验方面有长足进步。
Azure Data Factory是基于云的数据集成服务,用于在云中创建数据驱动型工作流,以便协调和自动完成数据移动和数据转换。使用 Azure Data Factory可执行以下任务:
Azure Data Catalog
Azure Data Catalog(数据目录)旨在帮助企业充分利用现有的信息资产。数据目录可帮助管理数据的用户更轻松地发现和理解数据源,数据目录提供基于云的服务,可在其中注册数据源:数据保留在现有位置,但其元数据的副本将连同数据源位置的引用一起添加到数据目录。此元数据还会编制索引,方便通过搜索功能轻松发现每个数据源,并让发现数据源的用户理解该数据源。
注册数据源之后,注册数据源的用户或企业中的其他用户可以充实其元数据。任何用户都可以提供描述、标记或其他元数据(例如请求数据源访问权限的文档和过程)来批注数据源。此描述性元数据可补充从数据源注册的结构化元数据(例如列名和数据类型)。
注册源的主要目的是发现和理解数据源及其用途。 企业用户可能需要用于商业智能、应用程序开发、数据科学或需要正确数据的任何其他任务的数据。 他们可以使用“数据目录发现”体验快速查找符合其需求的数据、了解数据以评估其适用性,并通过在其所选工具中打开数据源来使用数据。
与此同时,用户还可通过对已注册的数据源进行标记、记录和批注来参与目录。用户还可以注册新的数据源,随后目录用户的社区可以发现、了解和使用这些数据源。
DataWorks
Azure Data Factory产品优势
Azure Data Factory产品劣势
Azure Data Catalog产品优势
完整的元数据管理企业级方案
Data Catalog沉淀了Azure在企业级数据管理上的经验。Data Catalog与Azure AD集成,便于管理企业组织与人员权限,按照所有权、批注权、注册权、可见性来管理元数据权限,通过术语来规范对资产对象和资产属性的描述。以上这些特效,都适合企业级协作场景的功能,构成了较为完整的解决方案。
数据知识共享与管理
Data Catalog不仅管理元数据,还管理元数据相关的知识:
Azure Data Catalog产品劣势
综上所述,在数据仓库及数据业务流程领域,DataWorks的优势在于: