问题：

我只需要附加那些在pyspark数据帧中具有非空值的人

文彭祖

2023-03-14

我有一个 pyspark 数据帧（df）具有以下示例表（表 1）： id， col1， col2， col3 1， abc，空，定义 2，空，定义，定义， abc 3，定义， abc，空

我试图通过忽略空值附加所有列来获取新列（final）。我已经尝试了pyspark代码并使用了f.array（col1、col2、col3）。值会被附加，但不会忽略空值。我还尝试了UDF仅附加非空列，但它不起作用。

import pyspark.sql.functions as f    
df = spark.table('table1')
df = df.withColumn('final', f.array(col1,col2,col3))

Actual result:
id, col1, col2, col3, final
1, abc, null, def, [abc,,def]
2, null, def, abc, [,def, abc]
3, def, abc, null, [def,abc,,]

expected result:
id, col1, col2, col3, final
1, abc, null, def, [abc,def]
2, null, def, abc, [def, abc]
3, def, abc, null, [def,abc]


my col1, col2, col3 schema are as below:
where as col1 name is applications


applications: struct (nullable = false)
    applicationid: string (nullable = true)
    createdat: string (nullable = true)
    updatedat: string (nullable = true)
    source_name: string (nullable = true)
    status: string (nullable = true)
    creditbureautypeid: string (nullable = true)
    score: integer (nullable = true)
    applicationcreditreportid: string (nullable = true)
    firstname: string (nullable = false)
    lastname: string (nullable = false)
    dateofbirth: string (nullable = false)
    accounts: array (nullable = true)
        element: struct (containsNull = true)
        applicationcreditreportaccountid: string (nullable = true)
        currentbalance: integer (nullable = true)
        institutionid: string (nullable = true)
        accounttypeid: string (nullable = true)
        dayspastdue: integer (nullable = true)
        institution_name: string (nullable = true)
        account_type_name: string (nullable = true)

如果问题不清楚或需要更多信息，请告诉我。任何帮助都将不胜感激。:)

共有3个答案

东方智敏

2023-03-14

您可以定义自己的UDF如下：

def only_not_null(st,nd,rd):
   return [x for x in  locals().values() if x is not None]  # Take non empty columns

然后调用：

df = spark.table('table1')
df = df.withColumn('final', f.udf(only_not_null)(col1,col2,col3))

祁飞扬

2023-03-14

使用UDF

from pyspark.sql.functions import udf, array

def join_columns(row_list):
    return [cell_val for cell_val in row_list if cell_val is not None]

join_udf = udf(join_columns)

df = spark.table('table1')
df = df.withColumn('final', join_udf(array(col1,col2,col3))

适用于多个列，而不仅仅是3，只需编辑数组内的列。

凤修为

2023-03-14

从Spark 2.4开始，你可以使用高阶函数来实现(不需要UDF)。在PySpark中，查询可能是这样的:

result = (
    df
    .withColumn("temp", f.array("col1", "col2", "col3"))
    .withColumn("final", f.expr("FILTER(temp, x -> x is not null)"))
    .drop("temp")
)

类似资料：

附加到Pandas中的空数据帧？

是否可以附加到不包含任何索引或列的空数据帧？我已经尝试过这样做，但最终还是得到了一个空的数据帧。例如。结果如下所示：
筛选没有值的Pyspark数据帧列

我正在尝试筛选将< code>None作为行值的PySpark数据帧: 我可以使用字符串值正确过滤：但这失败了：但是每一类都有明确的价值。这是怎么回事？
如何在Pyspark中替换数据帧的所有Null值

我在pyspark中有一个超过300列的数据帧。在这些列中，有些列的值为null。例如：当我想对列u 1求和时，结果得到的是Null，而不是724。现在，我想用空格替换数据框所有列中的null。因此，当我尝试对这些列求和时，我不会得到null值，但会得到一个数值。我们如何在pyspark中实现这一点
从具有DenseVector行的pyspark数据帧中获取行的最大值

我有一个DenseVectors作为行的dataframe：我想用UDF找到每一行的最大值。我就是这么做的：文件“C:\programdata\anaconda3\envs\python2\lib\site-packages\pyspark\sql\utils.py”，第63行，deco格式返回f(*a,**kw) 文件“C:\programdata\anaconda3\envs\python
在 pyspark 数据帧中显示不同的列值

使用pyspark数据帧，你如何做相当于熊猫我想列出pyspark数据框列中的所有唯一值。不是 SQL 类型方式（注册模板，然后 SQL 查询不同的值）。此外，我不需要< code>groupby然后< code>countDistinct，而是希望检查该列中的不同值。
只保留一个数据帧的行，该数据帧的某些列的值也显示在另一个数据帧中

我有两个数据帧，它们共享多个公共列，如下所示：第一个：而第二个：我想保留中的行，其列也存在于中。例如，df2的第27行有值，对于，这些值并不都存在于（因为df1只对列有值

我只需要附加那些在pyspark数据帧中具有非空值的人

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档