当前位置: 首页 > 面试题库 >

在Hadoop中更改文件拆分大小

邵胜涝
2023-03-14
问题内容

我在HDFS目录中有一堆小文件。尽管文件 较小, 但是每个文件的处理时间却很大
。也就是说,一个64mb文件(它是的默认拆分大小)TextInputFormat甚至需要几个小时才能处理。

我需要做的是 减小拆分大小 ,以便我可以 利用更多的节点 来完成工作。

所以问题是,怎么可能通过说来分割文件10kb?我需要实现我自己InputFormatRecordReader这一点,或有任何参数设置?谢谢。


问题答案:

mapred.max.split.size 可以针对每个作业单独设置的参数。不要更改, dfs.block.size
因为这对于HDFS是全局的,并且可能导致问题。



 类似资料:
  • 我有一个骆驼路由,它需要将一个大文件(600k行ID)拆分为600k个单独的消息,然后将它们推送到Activemq队列中。我如何从骆驼侧优化路线以提高吞吐量?我目前达到了到AMQ的大约150个消息/秒的吞吐量。以下是当前的路线。如有任何建议,不胜感激!

  • 我试图用postman上传一首歌,但我有一个错误,比如field song超过了其最大允许大小1048576字节。“ 我已经尝试在application.properties文件中添加这些配置,但它不起作用: spring.servlet.multipart.max-file-size=10MB spring.servlet.multipart.max-request-size=10MB 这是我的

  • 根据我的理解,应该在换行符处精确拆分,但根据我在网站上看到的一些答案,我似乎错了。有人有更好的解释吗?哪个选择是正确的? 以下哪项最能描述的工作方式? > 输入文件拆分可以交叉换行。跨越文件拆分的行由包含折线结尾的拆分的读取。 输入文件正好在换行符处拆分,因此每个记录读取器将读取一系列完整的行。 输入文件拆分可能会交叉换行符。将忽略横过平铺拆分的线。 输入文件拆分可能会交叉换行符。跨越文件拆分的一

  • 这个问题似乎不是关于特定的编程问题、软件算法或主要由程序员使用的软件工具。如果您认为该问题将在另一个Stack Exchange站点上讨论,您可以留下评论,解释该问题可以在何处回答。 未解决原始关闭原因 我有一个大小为2.5 GB的日志文件。有没有办法使用windows命令提示符将此文件拆分为更小的文件?

  • 我正在尝试用Python以编程方式拆分wav文件。基于stackoverflow的提示以及Python wave模块的文档,我将执行以下操作 我迭代了许多不同的起始值和结束值,并以这种方式从原始文件中提取音频块。奇怪的是,这种技术对某些块非常有效,而对其他块产生垃圾白噪声。此外,没有明显的模式表明起始位置和结束位置会产生白噪声,只是输入文件会持续产生白噪声。 有人以前经历过这种行为吗?或者知道我做