当前位置: 首页 > 工具软件 > Apache Drill > 使用案例 >

drill apache_使用Apache Drill深入研究当今的大数据

昝卓
2023-12-01

drill apache

自2014年9月首次提供Beta版以来, Apache Drill一直在获得广泛的用户采用和社区动力。2015年5月发布了Drill的通用版本-Drill 1.0,此后大量客户在生产中部署和使用了Drill。 在这篇博客文章中,我将简要总结客户在Drill中发现非常宝贵的一些关键功能。 我还将介绍部署Drill的常见用例,以及Drill入门资源。

为什么Drill对客户具有吸引力

  1. Drill提供对任何类型数据SQL访问,具有极大的灵活性和易用性

    使用Drill,您可以在短短几分钟之内查询文件,Hive数据仓库,HBase表甚至是非基于Hadoop的存储系统中的数据,并且可以动态合并这些来源的数据。 无需定义和维护任何中央元数据定义。 钻取就地查询数据并即时发现模式。 通过利用高级SQL解析器( Apache Calcite )提供的全面SQL支持,Drill还提供了SQL扩展,以本地查询和操作复杂数据类型,例如大多数新数据源中常见的数组和映射(如网站点击,社会,传感器数据)。 Drill还带有ODBC / JDBC驱动程序,因此可以很容易地将其插入到TableauMicroStrategy等BI工具中,以在组织中广泛使用。

  2. 演练可提供大规模的低延迟性能

    Drill是专为复杂数据而构建的分布式列式SQL查询引擎 。 它不使用MapReduce,Tez或Spark 。 Drill可以部署在单个节点上,也可以水平扩展到10s到100s到1000s的节点,具体取决于需要支持的用户数量,要满足的性能SLA以及需要处理的数据量。 除了规模之外,Drill还具有出色的性能。 内存中的柱状执行引擎旨在优化短查询的处理,结合了高级和可插入的优化功能,包括分区修剪,下推运算符以及基于规则和基于成本的查询重写功能。 这些功能使Drill在大数据生态系统中成为强大的交互工具。

  3. Drill提供了精细且分散的安全模型

    Drill中的视图通常用作管理单元,以提供对Hadoop数据的细化行和列级访问控制。 与其他SQL技术/工具不同,钻取视图是分散的实体,并且可以简单地维护为文件系统上的文件(用户可以选择文件系统位置来创建视图作为查询的一部分)。 这意味着可以使用文件系统权限来保护视图,而无需建立单独的安全性存储库来管理权限。

    此外,Drill支持用户模拟,因此特定的用户身份可用于访问这些视图,而不是系统或进程用户访问数据,这在某些用户环境中是不可接受的。 Drill还提供了强大的所有权链接功能,可控制给定用户可以访问多少级嵌套视图,因此组织可以在自助数据探索与受控治理之间取得平衡。

演练用例

在更广泛的层面上,Drill的用例是对存储在Hadoop数据湖/数据中心中的数据提供自助式BI /临时查询。 在这个保护伞存在几个子用例 ,下面是一些常见的使用模式,我们看到客户在其环境中利用Drill。 请注意,根据数据处理和报告要求的类型,通常会同时使用这些用例的混合。

  • 原始数据浏览:数据通常以文本和JSON等原始数据格式进入Hadoop集群。 目标是以自助服务的方式尽快将其提供给最终用户,分析师,数据科学家和其他SQL专家查询。 这是我们看到客户开始使用Drill时功能最强大,障碍最小的切入点。 Drill为这些大型原始数据集提供了启发(有时由于处理的复杂性和成本而忽略了数据集),立即打开了新型的BI用例,例如支持概念和查询的即席证明,新产品开发,数据发现用于构建模型,数据探索和数据质量报告。
  • Hive表上的低延迟查询:在此用例中,首先使用Hive ETL作业对来自各种数据源(通常是传统系统的负载)到达Hadoop集群的数据进行建模,预处理和转换。 目标是打开存储在Hive中的BI / adhoc查询数据集。 这是标准用例,几乎所有Hadoop工具上SQL都致力于解决此问题。 Drill凭借其ANSI SQL功能,与Hive的深度集成(允许重用Hive资产(例如文件格式,UDF和元数据定义))以及在通过Hive进行的查询方面的巨大性能提升,为该用例提供了强大的价值。
  • HBase / MapR-DB上的操作分析 :在此用例中,HBase / MapR-DB用作需要频繁更新的广泛,稀疏且经常动态的数据集的操作数据存储/数据中心。 Drill具有从NoSQL数据源实时发现架构的能力,并具有全面SQL功能支持以读取/解释各种数据类型和编码,Drill成为查询这些系统中数据的自然工具。

产品进度

Drill社区正在通过迭代发布在产品上取得快速进展。 在GA中提供了核心基础之后不久,便在7月发布了新的1.1版本(请参阅发行说明),它基于支持上述用例的功能集以及对SQL支持,性能,规模和企业的持续改进。可管理性。 Drill 1.2版本中还有更多令人兴奋的增强功能,您也可以检出。

如何开始使用Drill

有关完整文档,请参阅http://drill.apache.org/docs 。 其他资源可以在http://mapr.com/apachedrill找到

您有关于Apache Drill的问题吗? 在下面的评论部分中询问他们。

翻译自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html

drill apache

 类似资料: