当前位置: 首页 > 知识库问答 >
问题:

列名为空时如何使用pyspark筛选器

姚烨
2023-03-14

我的pyspark数据框中有几列为空,例如入站交付(注意中间的空格)。当我尝试比较使用时。过滤器我收到一个错误。我不想重新定义模式,因为我有一个很大的表,几乎所有表的名称都有相同的空格。有没有一种快速方法可以使用名称为空的筛选器

dfjoin.where('入站交付=0090043373'). show()

错误

Py4JJavaError回溯(最近一次调用上次)~\桌面\火花\火花-2.4.3-bin-hadoop2.7\python\pyspark\sql\utils。装饰中的py(*a,**kw)62尝试:---

~\Desktop\park\spack-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.pyget_return_value(答案,gateway_client,target_id,名称)327"调用{0}{1}{2}时出错。\n"。--

Py4JJavaError:调用o1424时出错。过滤器:组织。阿帕奇。火花sql。催化剂解析器。ParseException:应输入不匹配的“=”(第1行,位置16)

共有1个答案

柴英博
2023-03-14

例如,这种方式:

>>> df = spark.createDataFrame([("a",), ("b",)], ["column name"])
>>> df.show(False)
+-----------+
|column name|
+-----------+
|          a|
|          b|
+-----------+
>>> from pyspark.sql.functions import col
>>> df.filter(col("column name") == 'b').show()
+-----------+
|column name|
+-----------+
|          b|
+-----------+
 类似资料:
  • 我正在用Kafka、星火和朱皮特笔记本做概念验证,我遇到了一个奇怪的问题。我正在试着阅读从Kafka到Pyspark的Avro记录。我正在使用汇合模式注册表获取模式以反序列化avro消息。反序列化spark dataframe中的avro消息后,结果列为空,没有任何错误。列应该包含数据,因为当强制转换为字符串时,某些avro字段是可读的。 我也尝试过在Scala中的spark-shell(没有ju

  • 我想通过作为字符串的属性名筛选类的集合。假设我有一个名为Person的类,我有它的一个集合,或者是IEnumerable或者是List,我想过滤这个集合,但是我不知道确切的过滤器,我的意思是我不能使用: 让我举一个例子。

  • 我正在尝试筛选将< code>None作为行值的PySpark数据帧: 我可以使用字符串值正确过滤: 但这失败了: 但是每一类都有明确的价值。这是怎么回事?

  • 我需要过滤一个列表

  • 我正在寻找一个解决方案,显示一个div时,我的ng重复列表是空的。我用不同的冰淇淋创建了一个列表(带有搜索过滤器)。当列表不显示任何项目时,我想显示一个div,即使我做了搜索查询。我使用离子版本1与角v1.54。 我尝试了不同的方法,并在Stackoverflow上搜索了这样的问题。不幸的是,这些答案对我没有任何帮助。例如,我尝试了以下答案 https://stackoverflow.com/a/

  • 我正在创建一个包含一个用户实体的Spring Boot应用程序。 我想实现一个功能,管理员可以使用不同的过滤器搜索用户,过滤器可以是用户表中的一列或多列。 下面是用户实体类: 搜索用户时,只有名字可以是筛选器,或者在某些时候,名字和姓氏都可以是筛选器,或者如果需要,其他一些列值(ID、电子邮件和联系人)也可以与它们一起用作筛选器。筛选器的选择将完全是管理员在运行时的选择。 有人能指导我如何使用JP