问题：

如何在hadoop中处理长度前缀文件

鲁靖

2023-03-14

我有一个巨大的LPF（长度前缀文件）要由Hadoop处理。

但是，似乎没有合适的InputFormat可以随时读取各个记录，因为没有分隔符来分隔各个记录或列。

输入拆分必须发生在其中一条记录的末尾，这样在其他块中就没有半条记录。否则，记录读取器必须知道一半记录的结尾，以便将其与另一半记录连接起来。请建议一些读取和处理LPF文件的方法

共有1个答案

阴永逸

2023-03-14

为什么你不能拆分这个文件？在Hadoop中，有很多可变长度条目的文件格式可以很好地拆分。

查看InputFormat和RecordReader类，看看是否可以实现自定义版本。如果是这样，这就是你应该做的。

类似资料：

如何在TensorFlow中处理具有可变长度序列的批处理？

问题内容：我试图使用RNN（特别是LSTM）进行序列预测。但是，我遇到了序列长度可变的问题。例如，我正在尝试使用一个基于此基准的简单RNN预测当前单词之后的下一个单词，以构建PTB LSTM模型。但是，该参数（用于展开到先前的隐藏状态）在每个Tensorflow的时期应保持相同。基本上，批处理句子是不可能的，因为句子的长度会有所不同。在这里，对于我来说，每个句子都需要更改。我已经尝试了几
如何在Go中获取文件长度？

问题内容：我查了 golang.org/pkg/os/#File，但还是不知道。似乎无法获取文件长度，我错过了什么吗？如何在Go中获取文件长度？问题答案：返回一个值，该值又具有一个方法。因此，给定一个文件，代码将类似于
如何在hadoop中调度作业

我是hadoop新手，我写了一些作业并将它们导出为jar文件。我可以使用hadoop jar命令运行它们，我想每一小时运行一次这些作业。我该怎么做？提前谢谢。
递归长度前缀RLP编码方案

递归长度前缀RLP(Recursive Length Prefix)编码方案是在以太坊Ethereum中使用的一种空间有效的对象序列化方案。规范本身在黄皮书中定义，而下面的页面在ethereum Wiki中定义。
如何在文件路径中处理〜

问题内容：我正在编写一个简单的命令行Java实用程序。我希望用户能够使用运算符传递相对于其主目录的文件路径。所以像我的问题是有没有办法让Java自动解决这种类型的路径？还是需要为操作员扫描文件路径？似乎应该将这种类型的功能烘焙到对象中。但这似乎并非如此。问题答案：在大多数情况下，从用户处获得一个简单的字符（在转换之前）就足够了- 因为波浪号仅在路径目录部分的第一个字符时才扩展到主目录。
如何在Elasticsearch中匹配前缀

问题内容：假设在我的Elasticsearch索引中，我有一个名为“点”的字段，其中将包含由标点符号分隔的字符串（例如“ first.second.third”）。我需要搜索例如“ first.second”，然后获取其“点”字段包含正好是“ first.second”或以“ first.second”开头的字符串的所有条目。我在理解文本查询的工作方式时遇到问题，至少我无法创建执行此任务的查

如何在hadoop中处理长度前缀文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档