安装Cloudera Impala
Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果。
Impala作为你环境的插件,与其他组件的安装独立进行。Impala由一组组件组成,可以安装到集群中的多个节点。
Impala包安装一下二进制文件:
- impalad - Impala守护进程。解析并执行针对HDFS、HBase上数据的查询。集群中每一个数据节点上都要运行一个该进程。
- statestored - 名称服务,跟踪集群中的所有impalad实例的位置和状态。集群中的一个节点上运行这个守护进程的一个实例。
- catalogd - 元数据协调服务,用于广播Impala中DDL、DML语句导致的元数据变化到所有Impala节点,因此新建表、新载入数据、等等操作对于任意节点提交的查询都可见(Impala 1.2之前,你必须在每个节点上执行 REFRESH 或 INVALIDATE METADATA 语句以同步元数据的更新。现在只需要在Hive中执行DDL、DML语句之后再执行这些语句)。
- impala-shell - 连接Impala守护进程的执行查询的命令行接口。你可以在集群中一个或多个节点安装,但不需要是数据节点。它可以连接到远程的Impala守护进程。
在进行安装之前,请先确认满足所有的前提条件。参见Cloudera Impala需求了解详细信息。
有两种方式安装Impala:
- 使用Cloudera Manager安装程序,参见使用Cloudera Manager安装Impala。这是执行可靠、可验证的方式安装Impala的推荐方式。Cloudera Manager 4.8以上版本可以自动安装、配置、管理和监控Impala 1.2.1以上版本。
- 手工安装,参见不使用Cloudera Manager安装Impala。这时你必须做一些额外的验证步骤,用来检查Impala可以与其他Hadoop组件正确的交互,并且你的集群已经针对Impala高效执行正确的进行了配置。