当前位置: 首页 > 知识库问答 >
问题:

通过字段中的值筛选rdd行

扈德容
2023-03-14

我有一个csv,它具有以下结构:

共有1个答案

诸龙野
2023-03-14

假设您已经定义了包装这些值的类型,我们假设:

case class Record(val1: String, val2: Option[String], val3: String, val4: Option[String])

val rdd: RDD[Record] = ...
rdd.filter(record => record.val2.isDefined && record.val4.isDefined)

我希望这对你有帮助。

 类似资料:
  • 我想根据RDD中的值从Cassandra查询一些数据。我的方法如下: 虽然Cassandra查询在Spark shell中工作,但当我在平面图中使用它时,它会引发异常: 我的理解是,我不能在另一个RDD内部产生一个RDD。 我在网络上找到的示例读取RDD中的整个Cassandra表并连接RDD(如下所示:https://cassandrastuff.wordpress.com/2014/07/07

  • 我在spark中有以下命令, 有一组单词,data有三个字符串列,取自。 现在,只要中每个单词的单词模式出现在三列数据中的任何一列中,我就希望过滤掉数据中的行(spark dataframe)。 例如,如果有诸如之类的单词,并且如果三列数据中的任何一列包含诸如、等值,我希望过滤掉该行。 我尝试了以下方法: 这只适用于一个词。但是我想检查中的所有单词并删除它。有办法做到这一点吗? 我对Pyspark

  • 我有一个实体,其中一个字段是 我需要得到所有的时间表项目,其中的集合包含一个特定的组(集合可以有很多不同的组也。如果“我的组”是其中之一-它是我需要的)。 如果在没有任何条件的情况下运行代码,我可以在调试器中看到我的包含数据库中的所有项,并且每个项都包含中的组。 截图 当然,我可以“手动”找到我需要的项(例如,使用.stream()),但我肯定有一些方法可以使用谓词来获得它。

  • 我试图制作一个方法,获取封闭实例中的任何字段,对于一对2D坐标(其字段名以“X”结尾)的任何“X”组件具有整数值。 但我在编译器中得到的只是: 方法将这样使用: 我做错了什么?

  • 有没有办法告诉elasticsearch不返回任何元数据?目前,我可以选择哪些字段我想返回在源代码中。但我只想要源码中的字段。我宁愿不返回元数据,因为我不需要它,并节省一些不必要的解析和传输等。 我找到了弹性搜索--如何只返回数据,而不返回元信息?旧的问题,有人评论说当时不可能做到这一点。想知道这个功能是已经添加了还是仍然缺少?