Cloudera Impala

基于Hadoop的实时查询
授权协议 Apache
开发语言 C/C++
所属分类 服务器软件、 分布式应用/网格
软件类型 开源软件
地区 不详
投 递 者 阚元白
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Cloudera 发布实时查询开源项目 Impala (黑斑羚)!多款产品实测表明,比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Impala是Google Dremel的模仿,但在SQL功能上青出于蓝胜于蓝。

Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。目前支持的文件格式是文本文件和SequenceFiles(可以压缩为Snappy、GZIP和BZIP,前者性能最好)。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。

  • 一、Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。 二、Impala安装 1.安装要求 (1

  • Impala是由Cloudera开发的高性能实时计算工具,相比Hive性能提升了几十、甚至近百倍,基本思想是将计算分发到每个 Datanode所在的节点,依靠内存实现数据的缓存进行快速计算,类似的系统还有Berkeley的Shark。从实际测试来看,Impala效率确实 不错,由于Impala大量使用C++实现,不使用CDH的Image而自己编译安装要费不少功夫,这里记录一下安装配置过程和碰到的一

  • Cloudera Impala 常见问题 下面是 Clouder Impala 产品常见问题的目录。 继续阅读: Trying Impala Impala System Requirements Supported and Unsupported Functionality In Impala How do I? Impala Performance Impala Use Cases Questi

  • 一、Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用同样的统一存储平台,Impala也使用同样的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。 二、Impala安装 1.安装要求

  • 官方文档地址,建议通读以下2篇文章: https://www.cloudera.com/documentation/enterprise/5-6-x/topics/impala_noncm_installation.html https://www.cloudera.com/documentation/enterprise/5-6-x/topics/impala_config_options.ht

  • Cloudera Impala需求 为了达到预期的效果,Impala依赖于软件、硬件的可用性,以及下面章节描述的配置。 继续阅读: 支持的操作系统 支持的Hadoop发布 Hive Metastore及相关配置 Java依赖关系 包和库 网络配置需求 硬件需求 用户帐户需求 支持的操作系统 支持的64位操作系统: Red Hat Enterprise Linux (RHEL) 5.7/6.2/6.

  • Impala Concepts and Architecture The following sections provide background information to help you become productive using Cloudera Impala and its features. Where appropriate, the explanations include

  • 安装Cloudera Impala Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果。 Impala作为你环境的插件,与其他组件的安装独立进行。Impala由一组组件组成,可以安装到集群中的多个节点。 Impala包安装一下二进制文件: impalad - Impala守护进程。解析并执行针对HDFS、HBase上数据的查询。集群中每

 相关资料
  • > 我知道Sqoop中可用的选项,但如果我是正确的,我想知道Sqoop是如何在实时实现中使用的(通常) 1.1sqoop命令放在shell脚本中,从调度程序/事件触发器调用。我可以有实时代码-这方面的例子,特别是在shell脚本中向Sqoop动态传递参数(如表名)。 1.2相信Ooozie工作流也可以使用。请举例说明 抱歉问了太多问题。我没有看到任何关于如何在实时场景中使用这些组件的文章/博客。

  • 在DynamoDB中,我有一个表,其中每条记录都有两个日期属性,

  • 选了个课题:大概是开发一个web系统,系统功能是使用分布式爬虫(这里需要用Hadoop)去爬取主机信息,包括开放的端口、存在的漏洞有哪些,什么xss呀,sql注入什么的,再添加一些用户管理扫描出来的漏洞,并且将漏洞信息可视化出来,需要用Java实现,分布式爬虫可以使用nutch框架。 问题是:完全没思路,web系统开发出来没问题,但是怎么结合nutch框架去实现爬虫,又怎么结合上Hadoop,以及

  • 在我的DynamoDB表中,有HashKey=ID和GSI=Type。我需要获取特定类型(GSI)的所有hashKeys(ID)。 在这种情况下,获取给定类型的所有ID的有效方法是什么?我的DynamoDB表不会很大。

  • 问题内容: 我需要检查(从同一张表)基于日期时间的两个事件之间是否存在关联。 一组数据将包含某些事件的结束日期时间,另一组数据将包含其他事件的开始日期时间。 如果第一个事件在第二个事件之前完成,那么我想将它们链接起来。 到目前为止,我有: 然后我加入他们: 然后,可以基于我的validation_check字段运行带有SELECT嵌套的UPDATE查询吗? 问题答案: 您实际上可以通过以下两种方式

  • 我试图理解与Spring数据JPA的使用。考虑以下是从表中拉出的位置。 公共接口用户存储库扩展了JpaRepository{ 一切都很好。现在,在同一个界面上,我可以添加如下方法,其中它是从中提取的,它将与实体类不匹配。 A这也很好用。现在我真正的问题是,如果实体类与无关,为什么我们需要实体类。我们只是想确保代码能够正确编译吗?这是否意味着我甚至可以将任何类放入

  • 本文向大家介绍php基于curl实现的股票信息查询类实例,包括了php基于curl实现的股票信息查询类实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php基于curl实现的股票信息查询类。分享给大家供大家参考,具体如下: 股票信息查询功能我们是需要抓取第三方的数据,然后我们再把这些数据进行分析组成自己想要的,下面我们来看一个php 股票信息查询类. 今天一个二逼朋友让我帮忙写个股票查

  • 3.移除值事件侦听器和脱机的区别。