问题内容: 我是Hadoop / ZooKeeper的新手。我不明白将ZooKeeper与Hadoop结合使用的目的,ZooKeeper是否在Hadoop中写入数据?如果不是,那么为什么我们将ZooKeeper与Hadoop一起使用? 问题答案: Hadoop 1.x不使用Zookeeper。即使在Hadoop 1.x安装中,HBase也会使用zookeeper。 Hadoop从2.0版开始也采用
问题内容: 我需要以.csv格式输出hadoop结果。我该怎么做?我的代码:https : //github.com/studhadoop/xml/blob/master/XmlParser11.java 我应该在我的代码中简单地包含csvoutputFormat吗?我正在使用mapreduce API myjob.sh 解 是的,我不见了>在猫里 问题答案: 您可以使用TextOutputFor
问题内容: 我想从Hadoop 1.2.1切换到Hadoop 2.2。在我的项目中,我正在使用Maven,它可以处理 没有任何问题,但是将版本更改为2.2不能正常工作,因为它在中央Maven存储库中不可用。 关于如何包含Hadoop 2.2的任何想法。在我成熟的项目中? 问题答案: 可以在hadoop-client中找到大多数hadoop-core依赖项:
问题内容: 我找不到一个提交不使用不推荐使用的类的Hadoop作业的示例。 尚未弃用的,仍然仅支持带有参数的方法。 有人可以给我指出一个Java代码示例,该示例仅使用类(而不是)提交Hadoop map / reduce作业,而不是使用包吗? 问题答案: 希望对您有所帮助
问题内容: 我已经安装了Java 和成功。所有进程运行良好 但是,每当我尝试执行任何命令(如收到此警告)时, 请帮助解决此问题。这是我的〜/ .bashrc文件配置 问题答案: 您不能对这些警告采取任何措施,这与拼图项目和更强的封装能力有关。 基本上有一个称为的类,它是称为“模块”的一部分。该模块“定义”了它输出的内容(其他人可以从中使用什么)以及向谁输出。这也用普通的英语表示这不是供公众使用的-
问题内容: 我正在使用Hadoop示例程序WordCount处理大量的小文件/网页(大约2-3 kB)。由于这与hadoop文件的最佳文件大小相去甚远,因此该程序非常慢。我猜这是因为安置和撕毁工作的成本远远高于工作本身。这样的小文件还会导致文件名的命名空间耗尽。 我读到在这种情况下,我应该使用HDFS存档(HAR),但是我不确定如何修改此程序WordCount以从此存档中读取。程序可以在不进行修改
问题内容: 在我的服务器应用程序中,我正在从Java应用程序连接到受Kerberos保护的Hadoop群集。我正在使用HDFS文件系统,Oozie,Hive等各种组件。在应用程序启动时,我确实打电话给 这将返回我的实例,并在应用程序生存期内保留它。当执行特权操作时,我使用启动它们。 这可以正常工作,但我想知道是否以及何时更新kerberos票?我发现了一种似乎在快要到期时都会进行票证更新的方法。我
问题内容: 我正在使用以Python编写的mapper和reducer在Hadoop中(在Amazon EMR上)运行流作业。我想知道如果我在Java中实现相同的mapper和reducer(或使用Pig),将会获得的速度提升。 特别是,我正在寻找人们从流媒体迁移到自定义jar部署和/或Pig的经验,以及包含这些选项的基准比较的文档。我找到了这个问题,但是答案对我来说不够具体。我不是要在Java和
问题内容: 在新的API(apache.hadoop.mapreduce.KeyValueTextInputFormat)中,如何指定制表符(默认值)以外的分隔符(定界符)来分隔键和值。 样本输入: 需要的输出量: 我将KeyValueTextInputFormat指定为: 对于制表符作为分隔符,这工作正常。 问题答案: 在较新的API中,您应该使用配置属性。 这是一个例子:
问题内容: 我正在尝试将我的reducer的结果输出到多个文件。数据结果全部包含在一个文件中,其余结果根据它们所尊重的文件中的类别进行划分。我知道使用0.18可以使用MultipleOutputs做到这一点,并且它尚未被删除。但是,我正在尝试使我的应用程序兼容0.20+。现有的多输出功能仍然需要JobConf(我的应用程序使用Job和Configuration)。如何根据密钥生成多个输出? 问题答
问题内容: 我是Hadoop的新手。我想从mapper类的map函数中的main函数(Java程序)访问命令行参数。请提出方法。 问题答案: Hadoop 0.20引入了新的MR API,新的(oahmapreduce软件包)和旧的MR API(oahmapred)之间没有太多功能差异,只是可以使用新API在映射器和化简器中提取数据。提到Arnon的是旧的API。 查看本文以使用新旧API传递参数
问题内容: 在Map / Reduce期间,有什么方法可以设置和(以后)在Hadoop中获取自定义配置对象? 例如,假定一个应用程序预处理一个大文件并动态确定与该文件有关的某些特征。此外,假定那些特征保存在自定义Java对象(例如,但不是唯一的对象,因为某些可能不是字符串)中,并且随后对于每个映射和reduce作业都是必需的。 应用程序如何“传播”此配置,以便每个映射器和化简器功能在需要时可以访问
问题内容: 我知道的版本的具有功能合并多个文件到一个新的。 但是该版本的API不再支持该功能。 关于如何将目录中的所有文件合并到hadoop版本的新单个文件中的任何想法? 问题答案: FileUtil#copyMerge方法已被删除。查看主要更改的详细信息: https://issues.apache.org/jira/browse/HADOOP-12967 https://issues.apac
问题内容: 我尝试设置为在Mac OS上运行Hadoop 。下面提供了所采取的步骤, 使用命令安装 在文件夹内,并在文件中添加命令, 最后,该文件如下所示: 配置HDFS地址和端口号,打开,在标签中输入以下内容, 在中配置jobtracker地址和端口号,首先复制,然后打开,添加 mapred.job.tracker localhost:8021 问题答案: 伪分布式模式下的Hadoop设置(Ma
问题内容: 我已经在我的PC上安装了hadoop-2.2.0(单节点cluser)和maven3.3.1。我想在Eclipse中编写MapReduce代码。所以我的问题是: mapreduce和maven有什么关系? 如何调试eclipse中的代码?一个教程说,我应该首先在旧版本中安装hadoop eclipse插件,但似乎没有针对新版本hadoop-2.2.0的插件。我该如何解决? 问题答案: