当前位置: 首页 > 知识库问答 >
问题:

如何在Spark中跳过CSV文件的头?

祝宏放
2023-03-14

假设我给出了三个指向Spark上下文的文件路径来读取,每个文件的第一行都有一个模式。如何从标题中跳过模式行?

val rdd=sc.textFile("file1,file2,file3")

现在,我们如何从这个RDD跳过标题行呢?

共有1个答案

楚意
2023-03-14
data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header)   #filter out header
 类似资料:
  • 我正在尝试使用BigQuery API将CSV数据从云存储桶加载到BigQuery表我的代码是: 这给了我错误: 此错误是因为,我的csv文件包含头两行作为标题信息,不应加载头两行。我已经给job.skiequencingrows=2,但它没有跳过前2行。是否有其他语法设置跳过行? 请帮忙。

  • 我正在使用JMeter运行API负载测试。其中我使用一个CSV文件来传递数据。 应用程序接口: CSV(共赢): CSV 文件 : 问题:JMeter 总是选择具有 isexternal = true 的行,并跳过所有具有 isexternal 作为 false 的行。这是我面临的奇怪行为。任何人都可以解释一下背后的原因吗?

  • 问题内容: 我有一个笨拙的csv文件,我需要跳过第一行来阅读它。 我正在使用python / pandas轻松做到这一点 但是我不知道如何在Go中做到这一点。 错误: : 问题答案: 读取csv文件时跳过第一行 例如, 输出:

  • 我正在使用java学习hadoop mapreduce,我有一个示例文件,数据如下所示,我如何跳过处理这个文件中的标题行…因为当我看到映射器输入时,它也在考虑标题… 滚动noschool namenameageGenderclasssubjectmarks

  • 现在前3个整数是我需要广播的一些计数器。之后,所有行都具有相同的格式,如 我将在3个计数器后的所有这些值映射到一个新的RDD后,用它们在函数中做一些计算。但我无法理解如何分离前3个值,并正常映射其余值。 我的Python代码是这样的

  • 我正在从jeter中的Csv文件中获取输入以测试我的API请求。我需要跳过一些列值。有什么方法可以做到这一点吗? 假设我的.csv有列:用户,密码,位置,状态,金额 我有兴趣将用户,密码,金额列作为我的API请求的输入。 我该怎么做呢?