有人可以概述可用的各种Hadoop发行版之间的各种差异吗?
以Apache Hadoop发行版为基准。
是否有 充分的理由 在标准Apache Hadoop发行版上使用这些发行版之一?
免责声明:我今年夏天在Cloudera实习(但我最好的朋友在Yahoo! :-))
Yahoo发行版是Hadoop
20的一个版本,它们在集群的某些子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁程序。它没有rpm或debian软件包等易于管理的功能。
Cloudera发行版以rpm和debs的形式打包(也提供源)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它一直在维护(不是说Yahoo不是-
我想一个人可以在github上检查一下他们上一次更新的时间)。它还包装Pig和Hive。
Cloudera的Hadoop
20发行版处于beta版本,而18则被认为是稳定的(有关更多信息,请访问Cloudera博客)。18版还包括Hive和Pig的软件包;对于20版本,您必须自己构建它们(尽管存在补丁,但还没有支持20版本的Pig或Hive的正式版本)。Cloudera和Yahoo
20版本之间可能存在重大重叠;两者都提供清单,因此您可以检查。有关Cloudera发行版的最新文档,请访问http://archive.cloudera.com。
雅虎不为其发布提供支持;他们为社区提供服务以提供补丁程序版本,因此有兴趣的人们可以构建Yahoo在内部运行的内容。考虑到Yahoo集群的规模,这是一个巨大的贡献,特别是如果您不是一直遵循JIRA的Hadoop开发人员。Cloudera支持其商业发行,并通过Hadoop邮件列表提供社区支持,以及针对发行版特定问题的GetSatisfaction页面。
两者都与原始Apache发行版有很大不同,因为它们在发行版之间进行了修补(cloudera版本20有60多个补丁!)。
本文向大家介绍Hadoop高并发?相关面试题,主要包含被问及Hadoop高并发?时的应答技巧和注意事项,需要的朋友参考一下 首先肯定要保证集群的高可靠性,在高并发的情况下不会挂掉,支撑不住可以通过横向扩展。 datanode挂掉了使用hadoop脚本重新启动。
很长一段时间以来,我一直很头疼,目前我的hadoop集群是这样的,我有40个salve节点要运行,每个从节点我配置了25个映射器和10个简化器,所以我可以同时启动40*25=1000个映射器和400个简化器。好的,现在我有以下工作: job1:我配置为运行5个映射器和5个简化器job2:我配置为运行20个映射器和10个简化器job3:我配置为运行975个映射器和385个简化器 假设我使用默认的FI
主要内容:Docker 部署,创建容器,Hadoop 安装由于 Hadoop 是为集群设计的软件,所以我们在学习它的使用时难免会遇到在多台计算机上配置 Hadoop 的情况,这对于学习者来说会制造诸多障碍,主要有两个: 昂贵的计算机集群。多计算机构成的集群环境需要昂贵的硬件. 难以部署和维护。在众多计算机上部署相同的软件环境是一个大量的工作,而且非常不灵活,难以在环境更改后重新部署。 为了解决这些问题,我们有一个非常成熟的方式 Docker。 Docke
我试图将批量加载map-reduce定制到HBase中,我遇到了reducer的问题。起初我认为我没有写好reducer,但是在reducer中抛出运行时异常并看到代码工作时,我意识到reducer根本没有运行。到目前为止,我看不出这个问题的一些常见答案有什么问题; 我的配置将mapoutput和output分开。 我的减速器和映射器具有覆盖功能。 我有Iterable,我的reducer输入是(
我正在尝试使用hadoop流,其中我有一个java类用作映射器。为了简化问题,我们假设java代码如下: 我可以将其编译为“javac Test.java”,并从命令行运行它,如下所示: 让我们假设我在HDFS中有一个文件:a.dat 现在我尝试在hadoop流中使用(Test.java)作为映射器。我为[1]-mapper命令行选项提供了什么。它应该像下面这样吗?[2]-file命令行选项。我需
我只是重新运行了以下命令:、、。但现在我得到以下错误: 13/11/10 20:52:12 ERROR Security.usergroupInformation:PriviledgedActionException as:hduser case:org.apache.hadoop.ipc.remoteException:org.apache.hadoop.mapred.safemodeExcep