当前位置：首页 > 面试题库 >

在Hadoop中更改文件拆分大小

邵胜涝

2023-03-14

问题内容：

我在HDFS目录中有一堆小文件。尽管文件量较小， 但是每个文件的处理时间却很大
。也就是说，一个64mb文件（它是的默认拆分大小）TextInputFormat甚至需要几个小时才能处理。

我需要做的是 减小拆分大小 ，以便我可以 利用更多的节点 来完成工作。

所以问题是，怎么可能通过说来分割文件10kb？我需要实现我自己InputFormat和RecordReader这一点，或有任何参数设置？谢谢。

问题答案：

mapred.max.split.size 可以针对每个作业单独设置的参数。不要更改， dfs.block.size
因为这对于HDFS是全局的，并且可能导致问题。

类似资料：

Apache Camel拆分大文件

我有一个骆驼路由，它需要将一个大文件（600k行ID）拆分为600k个单独的消息，然后将它们推送到Activemq队列中。我如何从骆驼侧优化路线以提高吞吐量？我目前达到了到AMQ的大约150个消息/秒的吞吐量。以下是当前的路线。如有任何建议，不胜感激！
在java中拆分文件
如何在spring Boot中更改多部分文件的最大大小？

我试图用postman上传一首歌，但我有一个错误，比如field song超过了其最大允许大小1048576字节。“ 我已经尝试在application.properties文件中添加这些配置，但它不起作用： spring.servlet.multipart.max-file-size=10MB spring.servlet.multipart.max-request-size=10MB 这是我的
Hadoop MapReduce TextInputFormat-如何进行文件拆分

根据我的理解，应该在换行符处精确拆分，但根据我在网站上看到的一些答案，我似乎错了。有人有更好的解释吗？哪个选择是正确的？以下哪项最能描述的工作方式？ > 输入文件拆分可以交叉换行。跨越文件拆分的行由包含折线结尾的拆分的读取。输入文件正好在换行符处拆分，因此每个记录读取器将读取一系列完整的行。输入文件拆分可能会交叉换行符。将忽略横过平铺拆分的线。输入文件拆分可能会交叉换行符。跨越文件拆分的一
如何在windows中拆分大文本文件？[关闭]

这个问题似乎不是关于特定的编程问题、软件算法或主要由程序员使用的软件工具。如果您认为该问题将在另一个Stack Exchange站点上讨论，您可以留下评论，解释该问题可以在何处回答。未解决原始关闭原因我有一个大小为2.5 GB的日志文件。有没有办法使用windows命令提示符将此文件拆分为更小的文件？
在python中拆分wav文件

我正在尝试用Python以编程方式拆分wav文件。基于stackoverflow的提示以及Python wave模块的文档，我将执行以下操作我迭代了许多不同的起始值和结束值，并以这种方式从原始文件中提取音频块。奇怪的是，这种技术对某些块非常有效，而对其他块产生垃圾白噪声。此外，没有明显的模式表明起始位置和结束位置会产生白噪声，只是输入文件会持续产生白噪声。有人以前经历过这种行为吗？或者知道我做

在Hadoop中更改文件拆分大小

相关阅读

相关文章

相关问答

相关工具

相关文档