当前位置: 首页 > 知识库问答 >
问题:

Hadoop文件格式

楚浩然
2023-03-14

我需要考虑如何将我的数据写入Hadoop。

我正在使用Spark,我从Kafka主题中得到了一条消息,每条消息都在JSON记录中。

我每天大约有200B张唱片。

有什么建议吗?

共有1个答案

马浩淼
2023-03-14

如果您关心存储和查询,按顺序排列的最佳存储类型是

  • 半兽人
  • 镶木地板
  • Avro
  • JSON
  • CSV/TSV(纯结构文本)
  • 无结构文本

如果您的磁盘空间有限,并且想要牺牲检索,那么Snappy或Bzip2将是最好的,其中Bzip2更加压缩。

 类似资料:
  • 我正在尝试使用hadoop map reduce,但不是在映射器中一次映射每一行,而是一次映射整个文件。

  • 本文向大家介绍Hadoop文件的存储格式实例详解,包括了Hadoop文件的存储格式实例详解的使用技巧和注意事项,需要的朋友参考一下 sequence文件存储格式 1.txt 纯文本格式,若干行记录。默认用字符编码存储 2.SequenceFile格式(顺序文件格式,可进行切割) key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop提供的api进行写入存储。 编写 写入

  • 问题内容: 为了有效地利用Hadoop中的 map- reduce作业,我需要将数据以hadoop的序列文件格式存储。但是,当前数据仅是平面.txt格式。有人可以建议我将.txt文件转换为序列文件的方法吗? 问题答案: 因此,最简单的答案就是只有一个具有SequenceFile输出的“身份”工作。 在Java中看起来像这样:

  • 问题内容: 尝试实例化Map / Reduce程序中的对象时遇到意外错误。 错误如下: java.lang.NoClassDefFoundError:org / apache / commons / logging / LogFactory 我正在使用Hadoop 2.2.0。该程序在Hadoop的早期版本中运行良好。但是,现在我需要为版本2编写此作业提交者,并且这似乎不起作用。 附带说明,我找不

  • 我对hadoop很陌生,请你帮忙。我正在执行将文件从一个目录消化到另一个目录的过程。我使用的以下comand: Blockquote hadoop fs-copyfromlocal./tmp/text.txt./tmp/HarSourceFolder2 有人能帮我吗?

  • 问题内容: 我正在尝试使用Hadoop实现一个示例单词计数程序。我已经下载并安装了Hadoop 2.0.0。我想使用Eclipse来执行此示例程序,因为我认为稍后在我的真实项目中,我仅需使用Eclipse。 我找不到类似Hadoop的jar文件hadoop-core.jar以及其他必需的jar文件。我搜索了2.0 hadoop的所有文件夹,但找不到这些文件。这些相同的文件在Hadoop的1.0版本