问题：

在Scala火花数据帧DSL API中使用Scal-sql UDF

寇靖

2023-03-14

如何在火花scala数据帧（非文本）api中访问geomesas UDF？即如何转换

如何使sql UDF在scala数据帧DSL中的文本spark sql API中可用？即如何启用而不是此表达式

spark.sql("select st_asText(st_bufferPoint(geom,10)) from chicago where case_number = 1")

类似于

df.select(st_asText(st_bufferPoint('geom, 10))).filter('case_number === 1)

如何注册Geomesa UDF，使其不仅适用于sql文本模式<代码>SQLTypes。init（spark.sqlContext）fromhttps://github.com/locationtech/geomesa/blob/f13d251f4d8ad68f4339b871a3283e43c39ad428/geomesa-spark/geomesa-spark-sql/src/main/scala/org/apache/spark/sql/SQLTypes.scala#L59-L66似乎只注册文本表达式。

我已经在进口了

import org.apache.spark.sql.functions._

所以这些函数

https://github.com/locationtech/geomesa/blob/828822dabccb6062118e36c58df8c3a7fa79b75b/geomesa-spark/geomesa-spark-sql/src/main/scala/org/apache/spark/sql/SQLSpatialFunctions.scala#L31-L41

应该是可用的。

共有2个答案

杜良骏

2023-03-14

您可以在组织中使用udf功能。阿帕奇。火花sql。正在导入的功能，例如。

val  myUdf = udf((x: String) => doSomethingWithX(x))

然后，您可以在DSL中使用myUdfdf.select（myUdf（$"field"））

彭开畅

2023-03-14

看看的calUDF函数org.apache.spark.sql.functions

val spark = SparkSession.builder()
  .appName("callUDF")
  .master("local[*]")
  .getOrCreate()
import spark.implicits._

val df = spark.createDataset(List("abcde", "bcdef", "cdefg")).toDF("str")
df.createTempView("view")

spark.sql("select length(substring(str, 2, 3)) from view").show()
df.select(callUDF("length", callUDF("substring", $"str", lit(2), lit(3)))).show()

spark.stop()

使用Spark 2.1进行测试

类似资料：

使用scala的布尔运算在火花数据帧中折叠列

我们如何使用scala使用OR操作将布尔列折叠成一行？第1部分：期望输出我能想到的一个解决方案是按第一列条目对它们进行分组，filter true 这个解决方案相当混乱。此外，不知道这是否适用于所有边缘情况。有什么聪明的方法可以做到这一点吗？编辑：给定的答案适用于上述给定的场景，但不适用于此场景。有什么方法可以实现所需的输出？第2部分：期望输出我试图通过col1和col2分组，然后用
如何解析CSV字符串到火花数据帧使用scala？

我想将包含字符串记录的RDD转换为Spark数据帧，如下所示。模式行不在同一个中，而是在另一个变量中：所以现在我的问题是，我如何使用上面两个，在Spark中创建一个数据帧？我使用的是Spark 2.2版。我确实搜索并看到了一篇帖子：我可以使用spack-csv将表示为字符串的CSV读取到Apache Spark中吗？然而，这并不是我所需要的，我也无法找到一种方法来修改这段代码以在我的情况下工
火花数据帧滤波器

我想过滤掉具有“c2”列前3个字符的记录，无论是“MSL”还是“HCP”。所以输出应该如下所示。有谁能帮忙吗？我知道df。过滤器（$c2.rlike（“MSL”））--用于选择记录，但如何排除记录？版本：Spark 1.6.2 Scala:2.10
如何使用 JAVA 在火花数据帧上调用 UDF？

类似的问题，但没有足够的观点来评论。根据最新的Spark文档,< code>udf有两种不同的用法，一种用于SQL，另一种用于DataFrame。我找到了许多关于如何在sql中使用< code>udf的例子，但是还没有找到任何关于如何在数据帧中直接使用< code>udf的例子。 o.p.针对上述问题提供的解决方案使用，这是，将根据Spark Java API文档在Spark 2.0中删除。在那
从SQL查询火花数据帧

我正在尝试使用Apache Spark，以便将具有多个连接和子选择的（大型）SQL查询的结果加载到来自Spark的DataFrame中，如从SQL查询创建Spark Dataframe中所述。不幸的是，我这样做的尝试导致了拼花错误：线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。我从谷歌看到的信息表明，当数据帧为空
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。

在Scala火花数据帧DSL API中使用Scal-sql UDF

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档