当前位置：首页 > 软件库 > 企业应用 > BI商业智能 >

Apache Hive

数据仓库平台

授权协议 Apache

开发语言 Java

所属分类企业应用、 BI商业智能

软件类型开源软件

地区不详

投递者文嘉禧

操作系统跨平台

开源组织 Apache

适用人群未知

软件概览

Apache Hive（TM）数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。建立在Apache Hadoop（TM）之上，它提供：

通过SQL轻松访问数据的工具，从而实现数据仓库任务，例如提取/转换/加载（ETL），报告和数据分析
一种将结构强加于各种数据格式的机制
访问直接存储在Apache HDFS（TM）或其他数据存储系统（例如Apache HBase（TM））中的文件
使用Apache Hadoop MapReduce，Apache Tez或Apache Spark框架执行查询。

Hive提供了标准的SQL功能，包括2003年和2011年以后的许多分析功能。其中包括OLAP函数，子查询，公用表表达式等。Hive的SQL也可以通过用户定义的函数（UDF），用户定义的集合（UDAF）和用户定义的表函数（UDTF）扩展为用户代码。

Hive用户在执行SQL查询时可以选择3种运行时。用户可以选择Apache Hadoop MapReduce，Apache Tez或Apache Spark框架作为执行后端。MapReduce是一个成熟的框架，已得到大规模验证。但是，MapReduce是纯粹的批处理框架，使用它的查询可能会遇到更高的延迟（数十秒），即使是在较小的数据集上也是如此。Apache Tez专为交互式查询而设计，与MapReduce相比，已大大减少了开销。Apache Spark是一个集群计算框架，建立在MapReduce之外，但在HDFS之上，具有可称为项目的可组合且可转换的分布式集合的概念，称为弹性分布式数据集（RDD），它无需MapReduce引入的传统中间阶段即可进行处理和分析。

用户可以随时在这些框架之间来回切换。在每种情况下，Hive都最适合处理的数据量足以需要分布式系统的用例。

Hive不适用于在线交易处理。最好用于传统的数据仓库任务。Hive旨在最大程度地提高可扩展性（通过向Hadoop集群动态添加更多计算机来进行横向扩展），性能，可扩展性，容错以及输入格式的松散耦合。

使用案例

Apache-Hive是个什么东东

Apache-Hive概览 Hive是什么？要想将一个东西使用好，必须首先对这个东西有一个很正确的定位。答案如下： Hive是一个数据仓库工具。 Hive是一个可以用来便利读取、写入、管理海量数据集的数据仓库工具。 Hive是一个可以使用SQL语法读取、写入、管理分布式存储系统上的海量数据集的数据仓库工具。 Hive是基于Hadoop生态的上层应用，它提供了以下的特性：通过SQL访问数据，允许
Apache hive详解

Apache hive详解 1. Apache hive 简介 1.1 什么是Hive Hive是基于hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL查询功能. Hive的本质是将SQL装换为MapReduce程序; 主要用途:用来做离线数据分析,比直接使用MapReduce开发效率更高. 1.2 为什么使用Hive 直接使用hadoop MapReduce处

Apache Hive

同类工具

相关阅读

相关文章

相关问答

相关文档