当前位置：首页 > 面试题库 >

PySpark用另一列中的值替换列中的null

李和昶

2023-03-14

问题内容：

我想用相邻列中的值替换一列中的空值，例如，如果我有

A|B
0,1
2,null
3,null
4,2

我希望它是：

A|B
0,1
2,2
3,3
4,2

尝试过

df.na.fill(df.A,"B")

但是没用，它说值应该是浮点数，整数，长整数，字符串或字典

有任何想法吗？

问题答案：

最后找到一个替代方案：

df.withColumn("B",coalesce(df.B,df.A))

类似资料：

PySpark一次替换几列中的值

我想将数据帧列中的一个值替换为另一个值，我必须对许多列执行此操作（假设30/100列）我已经经历过这个和这个了。我可以在y列和z列中分别用Null替换“baz”。但我想对所有列都这样做——类似于下面的列表理解方式
PySpark将列中的null替换为其他列中的值

我想用相邻列中的值替换一列中的空值，例如，如果我我希望它是：尝试过但没有工作，它说值应该是浮点数、int、长、字符串或判决有什么想法吗？
基于另一列中的值用预定值替换一列中的NA

我有一个非常简单的问题。然而，我所能找到的都是非常复杂的答案，并不完全符合我的需求。最接近的，我在这里发现：弗洛德尔和埃迪的回答(data.table) 但是，我想额外指定如何根据不同列中的值处理指定列中的NA。我有一个data.table，其中包含NA列，其中< code>fac是一个因子变量。我想做的是根据< code>iso3c中的值将值< code>D和< code>E分配给< c
使用future中的另一列值在pyspark dataframe中创建新列

我有一个包含3列的数据表，我想使用列投影的值创建一个新列。应该如何从投影中选择值？--它应该选择前一年投影的3个具体值--如果您要为2020年创建一个新列，它应该从2021年、2022年和2023年选择值我已经尝试了以下SQL： spark.sql(''从表中选择serial_number,pit_pd_proj为proj1,year,lead(pit_pd_proj,3）over（parti
有效地将一列中的值替换为另一列Pandas DataFrame

问题内容：我有一个这样的Pandas DataFrame：我只想在值等于0的情况下用第二列（）中的值替换值，然后（对于剩余的零值），再次使用第三列（）进行替换。期望的结果是下一个：我使用该函数完成了此操作，但它似乎太慢了。我认为这一定是一种更快的方法。使用其他功能而不是该功能，有没有更快的方法呢？问题答案：使用起来更快。使用与您使用类似的模式：但是，使用嵌套稍微快一点：时机使用以
用python中的另一个子列表替换子列表

问题内容：我想用另一个子列表替换list中的一个子列表。像这样：可以说我想要一个像这样的子列表：并替换为所以最终结果将是有什么建议？问题答案：希望能有所帮助

PySpark用另一列中的值替换列中的null

相关阅读

相关文章

相关问答

相关工具

相关文档