问题：

具有多个参数的 PySpark UDF 返回空值

解翰采

2023-03-14

我有一个PySpark Dataframe，它有两列（A，B，其类型为双），其值为0.0或1.0。我正在尝试添加一个新列，这是这两个列的总和。我遵循Pyspark中的示例：在UDF中传递多列

import pyspark.sql.functions as F
from pyspark.sql.types import IntegerType, StringType
sum_cols = F.udf(lambda x: x[0]+x[1], IntegerType())
df_with_sum = df.withColumn('SUM_COL',sum_cols(F.array('A','B')))
df_with_sum.select(['SUM_COL']).toPandas()

这显示了一系列的< code>NULL,而不是我期望的结果。

我尝试了以下任何一种方法，以查看数据类型是否存在问题

sum_cols = F.udf(lambda x: x[0], IntegerType())
sum_cols = F.udf(lambda x: int(x[0]), IntegerType())

仍然得到空值。

我试着移除阵列:

sum_cols = F.udf(lambda x: x, IntegerType())
df_with_sum = df.withColumn('SUM_COL',sum_cols(df.A))

这可以正常工作并显示0/1

我试着移除UDF，但是离开了阵列:

df_with_sum = df.withColumn('SUM_COL', F.array('A','B'))

这可以正常工作并显示一系列[0.0/1.0,0.0/1.0]数组

所以，数组工作正常，UDF工作正常，只是当我试图将数组传递给UDF时，事情就崩溃了。我做错了什么？

共有1个答案

白芷阳

2023-03-14

问题在于，您试图在一个应该输出整数的函数中返回一个double值，而这个函数并不合适，默认情况下，当转换失败时，pyspark会自动返回< code>NULL:

df_with_doubles = spark.createDataFrame([(1.0,1.0), (2.0,2.0)], ['A', 'B'])
sum_cols = F.udf(lambda x: x[0]+x[1], IntegerType())
df_with_sum = df_with_double.withColumn('SUM_COL',sum_cols(F.array('A','B')))
df_with_sum.select(['SUM_COL']).toPandas()

您将获得:

  SUM_COL
0    None
1    None

但是，如果您这样做：

df_with_integers = spark.createDataFrame([(1,1), (2,2)], ['A', 'B'])
sum_cols = F.udf(lambda x: x[0]+x[1], IntegerType())
df_with_sum = df_with_integers.withColumn('SUM_COL',sum_cols(F.array('A','B')))
df_with_sum.select(['SUM_COL']).toPandas()

您将获得:

   SUM_COL
0        2
1        4

因此，可以预先将列强制转换为IntegerType（或在UDF中强制转换），或者将UDF的返回类型更改为DoubleType。

类似资料：

TypeScript具有相同参数的多个返回类型

为了理解TypeScript的精神，我在我的组件和服务中编写了全类型签名，这扩展到了angular2表单的自定义验证函数。我知道我可以重载函数签名，但这需要每个返回类型的参数不同，因为将每个签名编译为单独的函数：我还知道我可以返回单个类型（如Promise），它本身可以是多个子类型：但是，在angular2自定义表单验证器的上下文中，单个签名（一个类型为的参数）可以返回两种不同的类型：带有表
Java ProcessBuilder具有多个带空格的参数

问题内容：我知道关于从Java执行流程有很多解决的问题，但是我无法使用提供的答案解决问题。我正在尝试从Java应用程序创建postgresql数据库备份。我使用以下代码执行以上代码后，出现以下错误：仅当备份文件的路径包含空格时才出现问题，否则将创建备份。我试图在文件路径中同时使用斜杠和反斜杠，但我引用了文件路径，但每次都遇到相同的错误。可以从命令提示符处执行命令。我做错了。关于Proces
具有多个参数的xargs

问题内容：我有一个源输入 input.txt 我想将这些输入馈入程序，如下所示：所以我尝试使用 xargs ，但是没有运气。它给但我想要任何的想法？问题答案：到目前为止给出的解决方案都无法正确处理包含空格的文件名。如果文件名包含“或”，有些甚至会失败。如果输入文件是由用户生成的，则应该准备好使用令人惊讶的文件名。 GNU Parallel 很好地处理了这些文件名，并为您（至少）提供了
参数。getBehavior（）返回空值

我正在玩新的Android设计库。折叠工具栏布局完美运行。但是，我无法将工具栏的默认状态设置为折叠。我正在尝试实现这里和这里显示的解决方案我在我的活动摘要中调用以下代码: 但是，params返回的行为为null。我的xml代码和这里一样，除了我没有使用drawer和CordinatorLayout是我的根布局。编辑:我之前尝试过切换AppBarLayout。AppBarLayout的行为。S
如何联接多个表并返回具有空值的结果

我试图连接4个表，其中一个表没有所有匹配的ID，但我仍然需要显示连接的结果，甚至对于没有相应ID的行。下面是我所说的一个例子：示例查询：所以基本上我要做的是，如果tbl4没有tbl1_id，我仍然希望看到来自table1的结果，但为cnt显示0值...当我运行这个查询时，我得到了一堆重复的条目，数据看起来不正确。
具有多个参数的JPA Criteria API

问题内容：我需要制作一个使用JPA Criteria API和多个参数的搜索方法。现在的问题是，并非每个参数都是必需的。因此某些可能为null，因此不应将其包含在查询中。我已经使用CriteriaBuilder进行了尝试，但看不到如何使其工作。使用Hibernate Criteria API，这相当容易。只需创建条件，然后添加限制。如何使用JPA的Criteria API达到相同的目的？问

具有多个参数的 PySpark UDF 返回空值

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档