当前位置: 首页 > 知识库问答 >
问题:

Hadoop MapReduce TextInputFormat-如何进行文件拆分

屠锦
2023-03-14

根据我的理解,TextInputFormat应该在换行符处精确拆分,但根据我在网站上看到的一些答案,我似乎错了。有人有更好的解释吗?哪个选择是正确的?

以下哪项最能描述TextInputFormat的工作方式?

>

  • 输入文件拆分可以交叉换行。跨越文件拆分的行由包含折线结尾的拆分的RecordReader读取。

    输入文件正好在换行符处拆分,因此每个记录读取器将读取一系列完整的行。

    输入文件拆分可能会交叉换行符。将忽略横过平铺拆分的线。

    输入文件拆分可能会交叉换行符。跨越文件拆分的一行由包含虚线的两个拆分的RecordReaders读取。

  • 共有1个答案

    惠诚
    2023-03-14

    备选案文1。是正确的。第一次拆分的最后一行将是第一次拆分的一部分,尽管这将导致远程读取并遭受数据局部性问题。

    线的末端并不总是可能与分割边界重合。

     类似资料:
    • 问题内容: 我已经将CSV文件(大约10,000行;每行具有300列)存储在LINUX服务器上。我想将此CSV文件分解为500个CSV文件,每个文件20条记录。(每个具有与原始CSV中相同的CSV标头) 有什么linux命令可以帮助这种转换吗? 问题答案: 使其成为一个函数。您现在可以打电话 发现于:http : //edmondscommerce.github.io/linux/linux-sp

    • 问题内容: 我有以下代码: 我将有许多服务(如一项服务),并且我不想将它们全部放在同一个文件中。 我在Stack Overflow中读了另一个问题,我可能需要这样的其他文件:在该文件中写入所有服务,但是当我启动Node时会抛出该错误。 如何分隔代码? 问题答案: 您可以在不同的文件(例如 test-routes.js)中 定义路由,如下所示: 现在在您的主文件中说出 server.js, 您可以像

    • 面试题 为什么要进行系统拆分?如何进行系统拆分?拆分后不用 dubbo 可以吗? 面试官心理分析 从这个问题开始就进行分布式系统环节了,现在出去面试分布式都成标配了,没有哪个公司不问问你分布式的事儿。你要是不会分布式的东西,简直这简历没法看,没人会让你去面试。 其实为啥会这样呢?这就是因为整个大行业技术发展的原因。 早些年,印象中在 2010 年初的时候,整个 IT 行业,很少有人谈分布式,更不用

    • 本文向大家介绍React如何进行代码拆分?拆分的原则是什么?相关面试题,主要包含被问及React如何进行代码拆分?拆分的原则是什么?时的应答技巧和注意事项,需要的朋友参考一下 这里我认为react的拆分前提是代码目录设计规范,模块定义规范,代码设计规范,符合程序设计的一般原则,例如高内聚、低耦合等等。 在我们的react项目中: 1、在 api 层面我们单独封装,对外暴露http请求的结果。 2、

    • 问题内容: 我的Android应用程序中有以下字符串: 我需要操纵字符串并为该输出分割字符串: 我需要始终取字符串的最后一个元素。 如何在Java中输出此内容? 我非常感谢您在解决此问题方面可以给我的任何帮助。 问题答案: 另一种可能性:

    • 问题内容: 我有一个几分钟的.wav文件,我想分割成10秒的另一个.wav文件。 到目前为止,这是我的python代码: 印刷产量: 我知道这是框架列表。我如何为该列表中的每个元素制作一个wav文件(第一个.wav文件将是?Python的模块尚不清楚如何使用框架创建.wav文件。 编辑:这是一个重复的问题,如何在python中将音频文件(wav格式)拼接为1秒拼接? 但是,如果某人的答案不需要,我