问题：

如何使用 JAVA 在火花数据帧上调用 UDF？

庄智

2023-03-14

类似的问题，但没有足够的观点来评论。

根据最新的Spark文档,< code>udf有两种不同的用法，一种用于SQL，另一种用于DataFrame。我找到了许多关于如何在sql中使用< code>udf的例子，但是还没有找到任何关于如何在数据帧中直接使用< code>udf的例子。

o.p.针对上述问题提供的解决方案使用__callUDF（）__，这是_deprecated_，将根据Spark Java API文档在Spark 2.0中删除。在那里，它说：

“因为它与udf（）是冗余的。”

所以这意味着我应该能够使用__udf（）__来计算我的udf，但我不知道该怎么做。我没有偶然发现任何阐明Java-Spark程序语法的东西。我错过了什么？

import org.apache.spark.sql.api.java.UDF1;
.
.    
UDF1 mode = new UDF1<String[], String>() {
    public String call(final String[] types) throws Exception {
        return types[0];
    }
};

sqlContext.udf().register("mode", mode, DataTypes.StringType);
df.???????? how do I call my udf (mode) on a given column of my DataFrame df?

共有1个答案

尹弘壮

2023-03-14

火花

Scala样式＜code＞udf

import static org.apache.spark.sql.functions.*;
import org.apache.spark.sql.expressions.UserDefinedFunction;

UserDefinedFunction mode = udf(
  (Seq<String> ss) -> ss.headOption(), DataTypes.StringType
);

df.select(mode.apply(col("vs"))).show();

火花

即使我们假设您的UDF很有用并且不能被简单的getItem调用替换，它的签名也不正确。数组列使用ScalaWrapedArray公开，而不是普通的Java数组，因此您必须调整签名：

UDF1 mode = new UDF1<Seq<String>, String>() {
  public String call(final Seq<String> types) throws Exception {
    return types.headOption();
  }
};

如果UDF已经注册：

sqlContext.udf().register("mode", mode, DataTypes.StringType);

您可以简单地使用call UDF（这是1.5中引入的新函数）按名称调用它：

df.select(callUDF("mode", col("vs"))).show();

您也可以在选择Exprs中使用它：

df.selectExpr("mode(vs)").show();

类似资料：

如何使用 Java UDF 向火花数据帧添加新列

我有一个功能，请告诉我是否有任何解决方法。谢谢你。！
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。
在Scala火花数据帧DSL API中使用Scal-sql UDF

如何在火花scala数据帧（非文本）api中访问geomesas UDF？即如何转换如何使sql UDF在scala数据帧DSL中的文本spark sql API中可用？即如何启用而不是此表达式类似于如何注册Geomesa UDF，使其不仅适用于sql文本模式<代码>SQLTypes。init（spark.sqlContext）fromhttps://github.com/locationt
如何在使用火花数据帧写入时自动计算 numRepartition

当我尝试将数据帧写入Hive Parket分区表时它将在HDFS中创建大量块，每个块只有少量数据。我了解它是如何进行的，因为每个 spark 子任务将创建一个块，然后将数据写入其中。我也理解，块数会提高Hadoop的性能，但达到阈值后也会降低性能。如果我想自动设置数字分区，有人有一个好主意吗？
如何解析CSV字符串到火花数据帧使用scala？

我想将包含字符串记录的RDD转换为Spark数据帧，如下所示。模式行不在同一个中，而是在另一个变量中：所以现在我的问题是，我如何使用上面两个，在Spark中创建一个数据帧？我使用的是Spark 2.2版。我确实搜索并看到了一篇帖子：我可以使用spack-csv将表示为字符串的CSV读取到Apache Spark中吗？然而，这并不是我所需要的，我也无法找到一种方法来修改这段代码以在我的情况下工
火花SQL：如何使用JAVA从DataFrame操作调用UDF

我想知道如何使用JAVA从SparkSQL中的领域特定语言（DSL）函数调用UDF函数。我有UDF函数（仅举例）：我已经注册到sqlContext了当我运行下面的查询时，我的UDF被调用，我得到一个结果。我将使用Spark SQL中特定于域的语言的函数转换此查询，但我不确定如何进行转换。我发现存在调用 UDF（）函数，其中其参数之一是函数 fnctn 而不是 UDF2。如何使用 UDF

如何使用 JAVA 在火花数据帧上调用 UDF？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档