当前位置: 首页 > 知识库问答 >
问题:

如何在hadoop中处理长度前缀文件

鲁靖
2023-03-14

我有一个巨大的LPF(长度前缀文件)要由Hadoop处理。

但是,似乎没有合适的InputFormat可以随时读取各个记录,因为没有分隔符来分隔各个记录或列。

输入拆分必须发生在其中一条记录的末尾,这样在其他块中就没有半条记录。否则,记录读取器必须知道一半记录的结尾,以便将其与另一半记录连接起来。请建议一些读取和处理LPF文件的方法

共有1个答案

阴永逸
2023-03-14

为什么你不能拆分这个文件?在Hadoop中,有很多可变长度条目的文件格式可以很好地拆分。

查看InputFormatRecordReader类,看看是否可以实现自定义版本。如果是这样,这就是你应该做的。

 类似资料:
  • 问题内容: 我试图使用RNN(特别是LSTM)进行序列预测。但是,我遇到了序列长度可变的问题。例如, 我正在尝试使用一个基于此基准的简单RNN预测当前单词之后的下一个单词,以构建PTB LSTM模型 。 但是,该参数(用于展开到先前的隐藏状态)在每个Tensorflow的时期应保持相同。基本上,批处理句子是不可能的,因为句子的长度会有所不同。 在这里,对于我来说,每个句子都需要更改。我已经尝试了几

  • 问题内容: 我查了 golang.org/pkg/os/#File,但还是不知道。似乎无法获取文件长度,我错过了什么吗? 如何在Go中获取文件长度? 问题答案: 返回一个值,该值又具有一个方法。因此,给定一个文件,代码将类似于

  • 递归长度前缀RLP(Recursive Length Prefix)编码方案是在以太坊Ethereum中使用的一种空间有效的对象序列化方案。 规范本身在黄皮书中定义,而下面的页面在ethereum Wiki中定义。

  • 我是hadoop新手,我写了一些作业并将它们导出为jar文件。我可以使用hadoop jar命令运行它们,我想每一小时运行一次这些作业。我该怎么做?提前谢谢。

  • 问题内容: 假设在我的Elasticsearch索引中,我有一个名为“点”的字段,其中将包含由标点符号分隔的字符串(例如“ first.second.third”)。 我需要搜索例如“ first.second”,然后获取其“点”字段包含正好是“ first.second”或以“ first.second”开头的字符串的所有条目。 我在理解文本查询的工作方式时遇到问题,至少我无法创建执行此任务的查

  • 问题内容: 我正在编写一个简单的命令行Java实用程序。我希望用户能够使用运算符传递相对于其主目录的文件路径。所以像 我的问题是有没有办法让Java自动解决这种类型的路径?还是需要为操作员扫描文件路径? 似乎应该将这种类型的功能烘焙到对象中。但这似乎并非如此。 问题答案: 在大多数情况下,从用户处获得一个简单的字符(在转换之前)就足够了- 因为波浪号仅在路径目录部分的第一个字符时才扩展到主目录。