当前位置：首页 > 面试题库 >

如何在PySpark的UDF中返回“元组类型”？

施永贞

2023-03-14

问题内容：

输入的所有数据类型pyspark.sql.types为：

__all__ = [
    "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType",
    "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType",
    "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"]

我必须编写一个UDF（在pyspark中），它返回一个元组数组。我应该给它第二个参数是udf方法的返回类型吗？这将是ArrayType(TupleType())…

问题答案：

TupleTypeSpark中没有这样的东西。产品类型structs用特定类型的字段表示。例如，如果您想返回一个成对的数组（整数，字符串），则可以使用如下模式：

from pyspark.sql.types import *

schema = ArrayType(StructType([
    StructField("char", StringType(), False),
    StructField("count", IntegerType(), False)
]))

用法示例：

from pyspark.sql.functions import udf
from collections import Counter

char_count_udf = udf(
    lambda s: Counter(s).most_common(),
    schema
)

df = sc.parallelize([(1, "foo"), (2, "bar")]).toDF(["id", "value"])

df.select("*", char_count_udf(df["value"])).show(2, False)

## +---+-----+-------------------------+
## |id |value|PythonUDF#<lambda>(value)|
## +---+-----+-------------------------+
## |1  |foo  |[[o,2], [f,1]]           |
## |2  |bar  |[[r,1], [a,1], [b,1]]    |
## +---+-----+-------------------------+

类似资料：

具有多个参数的 PySpark UDF 返回空值

我有一个PySpark Dataframe，它有两列（，，其类型为），其值为或。我正在尝试添加一个新列，这是这两个列的总和。我遵循Pyspark中的示例：在UDF中传递多列这显示了一系列的< code>NULL,而不是我期望的结果。我尝试了以下任何一种方法，以查看数据类型是否存在问题仍然得到空值。我试着移除阵列: 这可以正常工作并显示我试着移除UDF，但是离开了阵列: 这可以正常工作并显
如何在Java/Kotlin中创建一个返回复杂类型的Spark UDF？

但任何时候我用这个：我得到一个隐秘的错误：我尝试使用自定义数据类型：使用返回该类型的UDF：但随后我得到另一个，它抱怨类型。如何正确地编写可以返回复杂类型的UDF？
从没有UDF的case表达式中创建火花返回元组（结构类型）

我正在寻找（一些测试没有成功）在不使用UDF的情况下从case语句返回元组结构类型，有什么方法可以做到这一点吗？用例是:我们有两列依赖于case表达式中的相同条件，因此我们看到两个选项: 写入相同条件两次，但返回不同列（不需要）写一次条件，但每次都返回2个值，这可以通过一个元组，然后我们将其拆分我知道这可以使用UDF来完成，但是我们避免了UDF，因为被火花视为黑盒，因此它们是不可优化的，所以
udf spark Scala返回案例类

如何只在pos时返回case类
如何返回数组的特定元素？

问题内容：我想返回数组的奇数，但是Eclipse似乎不接受我的返回码。我认为这需要返回整个数组，因为我将数组设置为方法的参数。如前所述，我需要传递一个数组并获取该数组的特定元素作为回报。即使我将该数组设为静态，如何返回单个元素？编辑：好吧，这里是：我知道这里可能存在多个错误，但我正在努力，不仅要返回奇数，还要将它们加在一起。问题答案：您的代码应如下所示：这里的要点是方法返回类型，它应该
如何调用返回元组的函数[]

相对来说，我是一个与Java智能合约交互的新手，在尝试检索智能合约函数返回的tuple[]时遇到了一个问题。这是我想调用的函数的ABI定义: 以下是智能合约代码的链接:https://polygonscan . com/address/0x 920 f 22 E1 e 5 da 04504 b 765 f 8110 ab 96 a 20 e 6408 BD # code 下面是我编写的调用该函数的

相关阅读

如何在Eclipse中返回？如何在Java中存储方法返回的数组奇怪的数组返回类型如何在Postgres中分组并返回总和行如何在Spring Boot @ResponseBody中返回404响应状态-方法返回类型为Response？

相关文章

JavaTuples 元组检查元素 Python MetaClass元类 MariaDB限制返回记录 Python return函数返回值 JavaTuples 元组迭代

相关问答

如何写以数组[StructType]，StructType为输入，返回数组[StructType]的Spark UDF 在UDF PySpark中传递多个列如何返回数组中最小的两个元素？带有udf pyspark的fasttext Pyspark udf在条件定义中返回一列，接受几列作为输入

相关工具

UDF format-udf udf-sample 具有视差效果的右滑返回并元

相关文档

PySpark 中文教程 Ruby 中的元编程如何正确的学习 Node.js 如何实现自己的 jQuery Element UI 组件中文文档