问题：

具有空条件的 pyspark 连接

何宏博

2023-03-14

我正在尝试根据“年”和“发票”列加入两个pyspark数据帧，如下所示。但是如果df1中缺少“年”，那么我需要仅根据“发票”加入

DF1：

Year    invoice    Status   Item
2020    262        YES      bag
2019    252        YES      ball
2018    240        YES      pen
2017    228        YES      ink
2016    216        NO       headphone
2015    213        NO       bicycle
        198        NO       ribbon
        175        YES      phone

df2:

Year    invoice
2020    262
2016    216
2014    175
2013    198
2019    252

预期输出：

Year    invoice    Status   Item
2020    262        YES      bag
2016    216        NO       headphone
2014    175        YES      phone
2013    198        NO       ribbon
2019    252        YES      ball

我可以按如下方式加入df1和df2（仅基于“年份和发票”列）。如果df1中缺少年份，我需要添加仅基于发票加入两列的逻辑。

df_results = df1.join(df2, on=['Year', 'invoice'], how='left') \
                .drop(df2.Year) \
                .drop(df2.invoice)

请让我知道如何加入，如果“年”在df1中是不可用的，数据帧应该加入的基础上“发票”。谢了。

共有1个答案

曹镜

2023-03-14

我没有您的代码来测试它，但我会尝试为连接操作添加一个条件：

cond = ((df1.Year == df2.Year) | df1.Year.isNull()) & (df1.invoice == df2.invoice)
df_results = df1.join(df2, on=cond, how='left') \
                .drop(df2.Year) \
                .drop(df2.invoice)

类似资料：

具有多个参数的 PySpark UDF 返回空值

我有一个PySpark Dataframe，它有两列（，，其类型为），其值为或。我正在尝试添加一个新列，这是这两个列的总和。我遵循Pyspark中的示例：在UDF中传递多列这显示了一系列的< code>NULL,而不是我期望的结果。我尝试了以下任何一种方法，以查看数据类型是否存在问题仍然得到空值。我试着移除阵列: 这可以正常工作并显示我试着移除UDF，但是离开了阵列: 这可以正常工作并显
Collectors.tomap中的NullPointerException具有空条目值

如果值之一为则抛出。我不理解这种行为，映射可以包含空指针作为值没有任何问题。的值不能为null有什么好的原因吗？还有，是否有一个很好的Java 8方法来修复这个问题，或者我应该恢复到普通的老for循环？我的问题的一个例子：堆栈跟踪： Java 11号还存在这个问题。
具有连接两列的子查询的Hibernate条件查询

我有一个表“Quote”，映射在hibernate中，它有一个由整数id和日期组成的复合键，还有几个附加列。我想编写一个条件查询，它使用DetachedCriteria来获取每个id中日期最长的行。在sql中，我可能会编写一个查询，比如在hibernate中，我认为可以像这样为“group by”子查询创建DetachedCriteria（其中Quote是映射表的类，“Qid”是键的复合id类
如何在PySpark DataFrame中删除具有空值的所有列？

问题内容：我有一个很大的数据集，我想删除包含值的列并返回一个新的数据框。我怎样才能做到这一点？以下内容仅删除包含的单个列或行。例如在上述情况下，它将丢弃整个列，因为其值之一为空。问题答案：这是删除所有具有NULL值的所有列的一种可能的方法，以获取每列NULL值计数代码的源代码。之前：后：希望这可以帮助！
具有多个条件的Numpy“where”

我尝试在数据帧“df_energy”中添加一个新的列“energy_class”，如果“consumpion_energy”值为有什么办法可以帮我吗？先谢谢你
具有外部条件的spring eventListener

我需要一个灵活的过滤器来过滤所有代码中的多个EventListener。我可以使用@EventListener（condition=“event.enabled”），但我的过滤器需要分析fooEvent的许多属性。我希望我可以使用应用程序上下文中的谓词Bean：但我得到：是否可以为EventListerns使用外部复杂条件？或者至少定义具有复杂条件的全局侦听器，并在不重复完整条件的情况下继承

具有空条件的 pyspark 连接

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档