问题：

Pyspark：在 UDF 中传递多个列以及一个参数

邹海超

2023-03-14

我正在编写一个udf，它将包含两个dataframe列以及一个额外的参数（常量值），并将向dataframe添加一个新列。我的函数如下所示：

def udf_test(column1, column2, constant_var):
    if column1 == column2:
        return column1
    else:
        return constant_var

此外，我还做了以下工作来传入多个列:

apply_test = udf(udf_test, StringType())
df = df.withColumn('new_column', apply_test('column1', 'column2'))

除非我删除作为函数第三个参数的< code>constant_var,否则现在这种方法不起作用，但是我真的需要这样做。所以我试着做了如下的事情:

constant_var = 'TEST'
apply_test = udf(lambda x: udf_test(x, constant_var), StringType())
df = df.withColumn('new_column', apply_test(constant_var)(col('column1', 'column2')))

和

apply_test = udf(lambda x,y: udf_test(x, y, constant_var), StringType())

以上这些都不适合我。我是根据这个和这个stackoverflow帖子得到这些想法的，我认为很明显我的问题与这两个帖子有什么不同。任何帮助都将不胜感激。

注意：为了便于讨论，我在这里简化了函数，实际函数更复杂。我知道可以使用＜code＞when＜code＞和＜code＞否则

共有1个答案

谢英光

2023-03-14

您不必使用用户定义的函数。您可以在（）和其他（）时使用函数：

from pyspark.sql import functions as f
df = df.withColumn('new_column', 
                   f.when(f.col('col1') == f.col('col2'), f.col('col1'))
                    .otherwise('other_value'))

另一种方法是生成用户定义的函数。然而，使用< code>udf对性能有负面影响，因为数据必须与python相互序列化。要生成用户定义的函数，您需要一个返回(用户定义的)函数的函数。例如:

def generate_udf(constant_var):
    def test(col1, col2):
        if col1 == col2:
            return col1
        else:
            return constant_var
    return f.udf(test, StringType())

df = df.withColumn('new_column', 
                   generate_udf('default_value')(f.col('col1'), f.col('col2')))

类似资料：

在UDF PySpark中传递多个列

我想计算PySpark数据帧的两列之间的Jaro Winkler距离。Jaro-Winkler距离可通过所有节点上的pyjarowinkler包获得。 pyjarowinkler的工作原理如下：输出：我试图编写一个UDF，将两列作为序列传递，并使用lambda函数计算距离。我是这样做的：我应该能够在上述函数中传递任意两个字符串列。我得到以下输出：预期产出：我怀疑这可能是因为不正确。它包含
在单个参数中传递多个值

问题内容：假设我有这个功能：我想这样称呼它：当然，不能用这种方法来完成，因为Postgres试图用该名称和三个不存在的参数来查找函数。我试图用引号引起来，但在这种情况下，参数解释错误： data1’，’data2’，’data3 ，就像一个字符串一样。有没有一种方法可以在参数中放置多个值，以便IN子句可以识别它？问题答案：您的函数将不会被创建。之后是句法废话。无论哪种方式，带有参
在java中传递多个参数

但是，当我试图将此代码更改为以下代码时，我得到了一个错误-错误：Main method，在类MyClass中找不到，请将Main method，定义为：public static void Main(string[]args)。我需要接收owner和consumerName作为我的程序的参数/输入。，这是怎么做到的？
具有多个参数的 PySpark UDF 返回空值

我有一个PySpark Dataframe，它有两列（，，其类型为），其值为或。我正在尝试添加一个新列，这是这两个列的总和。我遵循Pyspark中的示例：在UDF中传递多列这显示了一系列的< code>NULL,而不是我期望的结果。我尝试了以下任何一种方法，以查看数据类型是否存在问题仍然得到空值。我试着移除阵列: 这可以正常工作并显示我试着移除UDF，但是离开了阵列: 这可以正常工作并显
派斯帕克：在 UDF 中传递多列

我正在编写一个用户定义的函数，它将接受数据帧中除第一列之外的所有列，并进行求和(或任何其他操作)。现在，数据帧有时可以有3列或4列或更多。会有所不同。我知道我可以在UDF中硬编码4个列名作为传递，但在这种情况下它会有所不同，所以我想知道如何完成它？这里有两个示例，第一个示例中我们有两列要添加，第二个示例中有三列要添加。
如何在URL中传递多个参数？

问题内容：我试图弄清楚如何在URL中传递多个参数。我想将纬度和经度从我的android类传递给Java servlet。我怎样才能做到这一点？在这种情况下，输出（写入文件）为。这是可行的，但我想在两个单独的参数中传递纬度和经度，以便减少在服务器端的工作。如果不可能，我如何至少在＆之间添加一个空格，以便可以使用class获取经度和纬度。我试过以下行，但无济于事。我的servlet代码如下：我

Pyspark：在 UDF 中传递多个列以及一个参数

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档