当前位置: 首页 > 知识库问答 >
问题:

如何在hadoop mapreduce中跳过文件头的读取

苏磊
2023-03-14

我正在使用java学习hadoop mapreduce,我有一个示例文件,数据如下所示,我如何跳过处理这个文件中的标题行…因为当我看到映射器输入时,它也在考虑标题…

滚动noschool namenameageGenderclasssubjectmarks

共有1个答案

叶弘深
2023-03-14

因为您已经知道header是什么样子的,所以可以直接跳过header。这种方法使应用程序更慢。

@Override
public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException{
      String[] row = value.toString();

      if( row.equals( "roll no|school name|name|age|Gender|class|subject|marks") )
            return;

      //NOW YOU ARE HEADER FREE 
      //do some operations depending on your needs..

}
 类似资料:
  • 假设我给出了三个指向Spark上下文的文件路径来读取,每个文件的第一行都有一个模式。如何从标题中跳过模式行? 现在,我们如何从这个RDD跳过标题行呢?

  • 问题内容: 我有一个笨拙的csv文件,我需要跳过第一行来阅读它。 我正在使用python / pandas轻松做到这一点 但是我不知道如何在Go中做到这一点。 错误: : 问题答案: 读取csv文件时跳过第一行 例如, 输出:

  • 问题内容: 我想在阅读文本文件时跳过前17行。 假设文件看起来像: 我只想要好东西。我正在做的事情要复杂得多,但这是我遇到的麻烦。 问题答案: 使用切片,如下所示: 如果文件太大而无法加载到内存中:

  • 问题内容: 这是我的代码,我能够打印每行,但是当出现空白行时,它会打印;由于CSV文件格式,因此当空白行出现时我想跳过 问题答案: 如果要跳过所有空格行,则应使用以下测试:。 由于您可能需要做的事情不只是将非空白行打印到控制台上(不需要使用CSV模块),因此这里是一个涉及DictReader的示例:

  • 为什么我的程序在读取文件时忽略零?例如,以下是文件中的数字: 这是我的输出: 这是我的代码:

  • 问题内容: 是否可以在AngularJS中读取文件?我想将文件放入HTML5画布进行裁剪。 我在考虑使用指令吗?这是我要放入指令中的javascript代码: 问题答案: 是的,指令是正确的方法,但看起来有些不同: 工作示例:http : //plnkr.co/edit/y5n16v?p=preview 感谢lalalalalmbda提供此链接。