HadoopDB

分布式大规模数据库系统
授权协议 Apache
开发语言 Java
所属分类 数据库相关、 数据库服务器
软件类型 开源软件
地区 不详
投 递 者 莘光华
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

HadoopDBAbadi领导的开发团队利用不同的组件,包括开源数据库、PostgreSQLApache Hadoop数据分类技术和HiveFacebook公司开发的内部Hadoop项目)开发出的新型数据库。

HadoopDB的查询是利用MapReduce或常规的SQL语言完成的。MapReduceGoogle公司发明的Hadoop的祖先,这一软件架构用于大规模数据集(大于1TB)的并行计算。HadoopApache软件基金会所研发的开源并行运算编程工具和分布式文件系统,与MapReduceGoogle档案系统的概念类似。

另一方面,HadoopDB的数据处理部分是利用Hadoop完成的。Abadi表示,其中部分是利用了分布在无分享计算机群集中的许多节点上的不同的PostgreSQL实例完成的。“实质上,HadoopDBMapReduce和并行数据库管理系统技术的混血儿。但是与Aster DataGreenplumHive等已经开发出的项目和厂商不同,HadoopDB不是简单地在语言/接口层面上的混合,它是更深的系统实现层面上的集成。”Abadi说。

因为集两种技术的精华于一身,HadoopDB可以取得MapReduce等大规模并行数据基础设施的容错性。在这些基础设施中,服务器故障对整个网络的影响非常小。Abadi表示,HadoopDB可以执行复杂的分析,速度几乎与已有的商用并行数据库一样快。

HadoopDB的源代码现已公布。虽然其目前的解决方案还是试验性的,但对Web 2.0企业和方兴未艾的“NoSQL”运动的其他成员却非常具有吸引力。有专家认为,它最终可能吸引那些寻找代替甲骨文数据库、IBM DB2或微软SQL Server的更便宜、更具伸缩性数据库的企业。

Abadi20094月曾参与撰写了一篇论文,该论文指出对于大多数的用户和应用而言,关系型数据库仍然超过MapReduceHadoopAbadi日前表示,目前的研究并没有否认以前的看法,但是随着数据库技术的演进,HadoopDB这样的新兴数据库系统将具有比并行数据库更好的可伸缩性。

另外,HadoopDB虽然基于PostgreSQL构建,但同样可以使用其他数据库作为引擎。Abadi表示,其团队已经成功地使用了MySQL,并计划尝试使用像InfobrightMonetDB等柱状数据库来改进处理分析性工作负载时的性能。

  • 研究云计算的两个多月之后,脑子确实‘晕’了。云计算在我看来就是用mapReduce思想实践于大量廉价的Linux机器上的解决方案,主要涉及存储和处理两方面,当然以上观点都是我固执的偏见罢了。 传统的基于行的关系型数据库里名声最大的要数Oracle了,其分布式集群的RAC解决方案在负载均衡等方面做的也不错。但是它的处理速度确实有限,还没听说过哪个集群解决方案应用到了上百个节点,因为不管集群中有多少个

  • http://hi.baidu.com/dalier/item/a12c0878406a6a3c704423e4 研究云计算的两个多月之后,脑子确实‘晕’了。云计算在我看来就是用mapReduce思想实践于大量廉价的Linux机器上的解决方案,主要涉及存储和处理两方面,当然以上观点都是我固执的偏见罢了。 传统的基于行的关系型数据库里名声最大的要数Oracle了,其分布式集群的RAC解决方案在负载均

  • 众目期待之下,首款集关系型数据库的数据处理能力与Hadoop、MapReduce等下一代技术的可伸缩性于一身的开源并行数据库HadoopDB正式发布。 7月20日,美国耶鲁大学计算机科学教授Daniel J. Abadi 在其博客中公布了HadoopDB推出的消息。HadoopDB是Abadi领导的开发团队利用不同的组件,包括开源数据库、PostgreSQL、Apache Hadoop数据分类技术

  • 来自耶鲁的一篇论文 http://db.cs.yale.edu/hadoopdb/hadoopdb.pdf  学习下。 简要介绍的PPT,很经典http://www.slideshare.net/cloudera/hw09-hadoop-db   附其他资源,来自首页 HadoopDB An Architectural Hybrid of MapReduce and DBMS Technologi

  • Author:谢   本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1),Cluster02(192.168.0.2)。 以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的. 参考资料1:HadoopDB Quick Start Guide 参考资料2:HadoopDB安装使用

  • HadoopDB 是耶鲁大学的一些研究人员在进行的一个Opensource项目,类似GreenPlum,Aster Data,描述如下: A hybrid of DBMS and MapReduce technologies that targets analytical workloads Designed to run on a shared-nothing cluster of commod

  • 一 前言 在hadoopdb\hive\hadoop源码中,会有很多的测试主程序 ,而这些测试主程序通常都要用到configuration,即 new JobConf(conf)时初始化configuration对象,如果直接运行这些程序 ,可能会出现 只读取jar包中的配置文件 ,并不读取在conf路径下重新定义的新配置文件。 二 解决方案 记得在项目的classpath中添加conf文件 路径

 相关资料
  • 分布式支持 数据访问层支持分布式数据库,包括读写分离,要启用分布式数据库,需要开启数据库配置文件中的deploy参数: return [ // 启用分布式数据库 'deploy' => 1, // 数据库类型 'type' => 'mysql', // 服务器地址 'hostname' => '192.168.1.1,19

  • 这里我的疑问是,如果我使用多个分布式数据库,cam如何在配置(application.properties)中提到不同的DB源URL?目前我正在使用以下结构来使用一个数据库, 就像上面那样。 所以,如果我使用多个DB用于多个区域,我如何在这里给出有条件的配置?我是微服务世界和分布式数据库设计模式的新手。

  • 主要内容:1、TB级数据放在一台机器上:难啊!,2、到底啥是分布式存储?,3、啥又是分布式存储系统?,4、某台机器宕机了咋办?,5、Master节点如何感知到数据副本消失?,6、复制副本保持足够副本数量,7、删除多余副本,8、全文总结这篇文章,我们将用非常浅显易懂的语言,跟大家聊聊大规模分布式系统的容错架构设计。 虽然定位是有“分布式”、“容错架构”等看起来略显复杂的字眼,但是咱们还是按照老规矩:大白话 + 手绘数张彩图,逐步递进,让每个同学都能看懂这种复杂架构的设计思想。 1、TB级数据放在一

  • 每当我读到有关NoSQL分布式数据库的内容时,他们都会提到CAP定理,这意味着在分区系统中,您可以具有完全一致性,完全可用性或两者兼而有之,但不能完全两者兼而有之。 我不太清楚他们在谈论什么类型的一致性: 是数据新鲜度的一致性,其中一些客户端可能会获得比其他客户端更旧的数据吗? 或者是一致性,即事务可能仅部分完成,这可能会使数据处于不一致的状态? 第二种解释对我来说听起来很危险,不能真正接受。第一

  • 本文向大家介绍NoSQL数据库的分布式算法详解,包括了NoSQL数据库的分布式算法详解的使用技巧和注意事项,需要的朋友参考一下 今天,我们将研究一些分布式策略,比如故障检测中的复制,这些策略用黑体字标出,被分为三段: 数据一致性。NoSQL需要在分布式系统的一致性,容错性和性能,低延迟及高可用之间作出权衡,一般来说,数据一致性是一个必选项,所以这一节主要是关于 数据复制 和 数据恢复 。 数据放置

  • 我们已经使用Drools引擎几年了,但是我们的数据已经增长了,我们需要找到一个新的分布式解决方案来处理大量数据。我们有复杂的规则,可以查看几天的数据,这就是为什么Drools非常适合我们,因为我们的内存中只有数据。 你对类似于流口水但分布式/可扩展的东西有什么建议吗? 我确实对这件事进行了研究,但我找不到任何符合我们要求的东西。 谢谢