问题：

火花数据帧滤波器

南门意蕴

2023-03-14

val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2")

+---+-------+
| c1|     c2|
+---+-------+
|  1|Emailab|
|  2|Phoneab|
|  3|  Faxab|
|  4|   Mail|
|  5|  Other|
|  6|  MSL12|
|  7|    MSL|
|  8|    HCP|
|  9|  HCP12|
+---+-------+

我想过滤掉具有“c2”列前3个字符的记录，无论是“MSL”还是“HCP”。

所以输出应该如下所示。

+---+-------+
| c1|     c2|
+---+-------+
|  1|Emailab|
|  2|Phoneab|
|  3|  Faxab|
|  4|   Mail|
|  5|  Other|
+---+-------+

有谁能帮忙吗？

我知道df。过滤器（$c2.rlike（“MSL”））--用于选择记录，但如何排除记录？

版本：Spark 1.6.2 Scala:2.10

共有3个答案

屠振濂

2023-03-14

我使用下面的方法从数据帧中过滤行，这对我有用。火花2.2

val spark = new org.apache.spark.sql.SQLContext(sc)    
val data = spark.read.format("csv").
          option("header", "true").
          option("delimiter", "|").
          option("inferSchema", "true").
          load("D:\\test.csv")   


import  spark.implicits._
val filter=data.filter($"dept" === "IT" )

或

val filter=data.filter($"dept" =!= "IT" )

彭朝

2023-03-14

df.filter(not(
    substring(col("c2"), 0, 3).isin("MSL", "HCP"))
    )

胡元明

2023-03-14

这也行得通。简洁明了，与SQL非常相似。

df.filter("c2 not like 'MSL%' and c2 not like 'HCP%'").show
+---+-------+
| c1|     c2|
+---+-------+
|  1|Emailab|
|  2|Phoneab|
|  3|  Faxab|
|  4|   Mail|
|  5|  Other|
+---+-------+

类似资料：

从SQL查询火花数据帧

我正在尝试使用Apache Spark，以便将具有多个连接和子选择的（大型）SQL查询的结果加载到来自Spark的DataFrame中，如从SQL查询创建Spark Dataframe中所述。不幸的是，我这样做的尝试导致了拼花错误：线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。我从谷歌看到的信息表明，当数据帧为空
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。
火花数据帧范围分区

[新加入Spark]语言-Scala 根据文档，RangePartitioner对元素进行排序并将其划分为块，然后将块分发到不同的机器。下面的例子说明了它是如何工作的。假设我们有一个数据框，有两列，一列（比如“a”）的连续值从1到1000。还有另一个数据帧具有相同的模式，但对应的列只有4个值30、250、500、900。（可以是任意值，从1到1000中随机选择）如果我使用RangePartit
火花数据帧连接字符串

如何使用Spark-Scala连接日期和时间列（两个字符串）
火花2。x数据帧或数据集？[副本]

我的理解是Spark 1之间的一个重大变化。x和2。x是从数据帧迁移到采用更新/改进的数据集对象。但是，在所有Spark 2. x文档中，我看到正在使用，而不是。所以我问：在Spark 2. x中，我们是否仍在使用，或者Spark人员只是没有更新那里的2. x文档以使用较新的推荐的？
将函数应用于火花数据帧列

并将其应用于数据表的一列--这是我希望这样做的：我还没有找到任何简单的方法，正在努力找出如何做到这一点。一定有一个更简单的方法，比将数据rame转换为和RDD，然后从RDD中选择行来获得正确的字段，并将函数映射到所有的值，是吗？创建一个SQL表，然后用一个sparkSQL UDF来完成这个任务，这更简洁吗？

火花数据帧滤波器

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档