问题：

列名为空时如何使用pyspark筛选器

姚烨

2023-03-14

我的pyspark数据框中有几列为空，例如入站交付（注意中间的空格）。当我尝试比较使用时。过滤器我收到一个错误。我不想重新定义模式，因为我有一个很大的表，几乎所有表的名称都有相同的空格。有没有一种快速方法可以使用名称为空的筛选器

dfjoin.where（'入站交付=0090043373'）. show（）

错误

Py4JJavaError回溯（最近一次调用上次）~\桌面\火花\火花-2.4.3-bin-hadoop2.7\python\pyspark\sql\utils。装饰中的py（*a，**kw）62尝试：---

~\Desktop\park\spack-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.pyget_return_value（答案，gateway_client，target_id，名称）327"调用{0}{1}{2}时出错。\n"。--

Py4JJavaError：调用o1424时出错。过滤器：组织。阿帕奇。火花sql。催化剂解析器。ParseException：应输入不匹配的“=”（第1行，位置16）

共有1个答案

柴英博

2023-03-14

例如，这种方式：

>>> df = spark.createDataFrame([("a",), ("b",)], ["column name"])
>>> df.show(False)
+-----------+
|column name|
+-----------+
|          a|
|          b|
+-----------+
>>> from pyspark.sql.functions import col
>>> df.filter(col("column name") == 'b').show()
+-----------+
|column name|
+-----------+
|          b|
+-----------+

类似资料：

使用pyspark从apache kafka反序列化avro时为空列

我正在用Kafka、星火和朱皮特笔记本做概念验证，我遇到了一个奇怪的问题。我正在试着阅读从Kafka到Pyspark的Avro记录。我正在使用汇合模式注册表获取模式以反序列化avro消息。反序列化spark dataframe中的avro消息后，结果列为空，没有任何错误。列应该包含数据，因为当强制转换为字符串时，某些avro字段是可读的。我也尝试过在Scala中的spark-shell（没有ju
如何按属性名筛选类列表？

我想通过作为字符串的属性名筛选类的集合。假设我有一个名为Person的类，我有它的一个集合，或者是IEnumerable或者是List，我想过滤这个集合，但是我不知道确切的过滤器，我的意思是我不能使用：让我举一个例子。
筛选没有值的Pyspark数据帧列

我正在尝试筛选将< code>None作为行值的PySpark数据帧: 我可以使用字符串值正确过滤：但这失败了：但是每一类都有明确的价值。这是怎么回事？
使用流筛选列表

我需要过滤一个列表
AngularJS-如果ng repeat为空，则使用筛选器显示div

我正在寻找一个解决方案，显示一个div时，我的ng重复列表是空的。我用不同的冰淇淋创建了一个列表（带有搜索过滤器）。当列表不显示任何项目时，我想显示一个div，即使我做了搜索查询。我使用离子版本1与角v1.54。我尝试了不同的方法，并在Stackoverflow上搜索了这样的问题。不幸的是，这些答案对我没有任何帮助。例如，我尝试了以下答案 https://stackoverflow.com/a/
使用 JPA 提取表记录时，使用多个列作为筛选器

我正在创建一个包含一个用户实体的Spring Boot应用程序。我想实现一个功能，管理员可以使用不同的过滤器搜索用户，过滤器可以是用户表中的一列或多列。下面是用户实体类：搜索用户时，只有名字可以是筛选器，或者在某些时候，名字和姓氏都可以是筛选器，或者如果需要，其他一些列值（ID、电子邮件和联系人）也可以与它们一起用作筛选器。筛选器的选择将完全是管理员在运行时的选择。有人能指导我如何使用JP

列名为空时如何使用pyspark筛选器

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档