问题：

在Spark中使用窗口功能

陶博涉

2023-03-14

我试图在火花数据帧中使用rowNumber。我的查询在Spark shell中按预期工作。但是当我在eclipse中写出它们并编译一个jar时，我面临着一个错误

 16/03/23 05:52:43 ERROR ApplicationMaster: User class threw exception:org.apache.spark.sql.AnalysisException: Could not resolve window function 'row_number'. Note that, using window functions currently requires a HiveContext;
org.apache.spark.sql.AnalysisException: Could not resolve window function 'row_number'. Note that, using window functions currently requires a HiveContext;

我的问题

import org.apache.spark.sql.functions.{rowNumber, max, broadcast}
import org.apache.spark.sql.expressions.Window
val w = Window.partitionBy($"id").orderBy($"value".desc)

val dfTop = df.withColumn("rn", rowNumber.over(w)).where($"rn" <= 3).drop("rn")

在Spark shell中运行查询时，我没有使用HiveContext。不确定为什么它返回一个错误，当我运行相同的jar文件。如果有帮助的话，我也在Spark 1.6.0上运行脚本。有人面临类似的问题吗？

共有2个答案

仲承福

2023-03-14

对于Spark 2.0，建议使用SparkSession作为单一入口点。它消除了HiveContext/SqlContext混淆问题。

import org.apache.spark.sql.SparkSession
val session = SparkSession.builder
    .master("local")
    .appName("application name")
    .getOrCreate()

查看这篇databricks文章了解如何使用它。

穆季萌

2023-03-14

我之前已经回答过一个类似的问题。错误信息说明了一切。带着火花

您可以在这里进一步了解SQLContext和HiveContext之间的区别。

SparkSQL有一个SQLContext和一个HiveContext。Spark社区建议使用HiveContext。您可以看到，当您运行Spark-shell（这是您的交互式驱动程序应用程序）时，它会自动创建一个定义为sc的SparkContext和一个定义为sqlContext的HiveContext。HiveContext允许您执行SQL查询以及Hive命令。

您可以尝试检查内部的火花外壳：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.6.0
      /_/

Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_74)

scala> sqlContext.isInstanceOf[org.apache.spark.sql.hive.HiveContext]
res0: Boolean = true

scala> sqlContext.isInstanceOf[org.apache.spark.sql.SQLContext]
res1: Boolean = true

scala> sqlContext.getClass.getName
res2: String = org.apache.spark.sql.hive.HiveContext

通过继承，HiveContext实际上是一个SQLContext，但反过来就不是这样了。如果您对了解HiveContext如何继承SQLContext更感兴趣，可以查看源代码。

自spark 2.0以来，您只需要创建一个SparkSession（作为单个入口点），它将消除HiveContext/SQLContext的混淆问题。

类似资料：

如何在PySpark中使用窗口功能？

问题内容：我正在尝试将某些Windows函数（和）用于数据框，但我不知道如何使用它们。有人可以帮我吗？在Python API文档中，没有关于它的示例。具体来说，我正在尝试获取数据框中数字字段的分位数。我正在使用Spark 1.4.0。问题答案：要使用窗口功能，您必须先创建一个窗口。定义与普通SQL几乎相同，这意味着您可以定义顺序，分区或同时定义两者。首先让我们创建一些虚拟数据：确保
Hive中的窗口功能

问题内容：我正在探索Hive中的窗口功能，并且能够理解所有UDF的功能。虽然，我无法理解我们与其他功能配合使用的分区和顺序。以下是与我计划构建的查询非常相似的结构。只是试图了解两个关键字都涉及的后台过程。感谢帮助:) 问题答案：分析函数为数据集中每个分区的每一行分配一个等级。子句确定行的分布方式（如果是配置单元，则在缩减程序之间）。确定行在分区中的排序方式。第一阶段由分配，数据集中
如何在spark中使用窗口函数过滤数据

我有以下数据：现在我想以这样一种方式过滤数据，我可以删除第6行和第7行，对于特定的uid，我想在代码中只保留一行值为'c' 所以预期的数据应该是：我使用的窗口函数如下所示：
使用排名窗口功能的Postgres UPDATE

问题内容：我有一个名为的表，最近刚刚在其中添加了一个名为type的新列。行值将不是整个表唯一的，而是它们各自的字段唯一的。无论如何，我什至不在乎它们的独特性。所有这些的目的是允许用户设置他们上传的照片的排序顺序（最多10张，并且可以拖动和重新排序等）。当用户“删除”照片时，我不会删除记录，我只是在该行上设置了一个字段。 Aaaanyway，我要介绍一个添加的迁移（它们以前无法订购照片，它们只
Spark窗口性能问题

我有一个拼花地板数据表，结构如下： null null 我已经调整了以下设置，希望降低总时间： spark.memory.storagefraction 0.02 spark.sql.windowexec.buffer.in.memory.threshold 100000 spark.sql.constraintpropagation.enabled false 第二种方法帮助防止了日志中出现的一
如何用Scala在Spark中做滑动窗口排序？

在第一个窗口row_number1到4中，新的秩（新列）将是在第一个窗口row_number5到8中，新的秩（新列）将是在第一个窗口中，Row_Number9要Rest，新的秩（新列）将是但这给了我：此外，尝试了。rowsbetween(-3,0）但这也给我带来了错误：

在Spark中使用窗口功能

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档