当前位置：首页 > 面试题库 >

如何在PySpark中使用窗口功能？

季凡

2023-03-14

问题内容：

我正在尝试将某些Windows函数（ntile和percentRank）用于数据框，但我不知道如何使用它们。

有人可以帮我吗？在Python
API文档
中，没有关于它的示例。

具体来说，我正在尝试获取数据框中数字字段的分位数。

我正在使用Spark 1.4.0。

问题答案：

要使用窗口功能，您必须先创建一个窗口。定义与普通SQL几乎相同，这意味着您可以定义顺序，分区或同时定义两者。首先让我们创建一些虚拟数据：

import numpy as np
np.random.seed(1)

keys = ["foo"] * 10 + ["bar"] * 10
values = np.hstack([np.random.normal(0, 1, 10), np.random.normal(10, 1, 100)])

df = sqlContext.createDataFrame([
   {"k": k, "v": round(float(v), 3)} for k, v in zip(keys, values)])

确保您正在使用HiveContext（仅限Spark <2.0）：

from pyspark.sql import HiveContext

assert isinstance(sqlContext, HiveContext)

创建一个窗口：

from pyspark.sql.window import Window

w =  Window.partitionBy(df.k).orderBy(df.v)

相当于

(PARTITION BY k ORDER BY v)

在SQL中。

根据经验，窗口定义应始终包含PARTITION BY子句，否则Spark会将所有数据移至单个分区。ORDER BY某些功能是必需的，而在不同情况下（通常是聚合）可能是可选的。

还有两个可选选项，可用于定义窗口span-ROWS BETWEEN和RANGE BETWEEN。在这种特定情况下，这些对我们没有用。

最后，我们可以将其用于查询：

from pyspark.sql.functions import percentRank, ntile

df.select(
    "k", "v",
    percentRank().over(w).alias("percent_rank"),
    ntile(3).over(w).alias("ntile3")
)

注意，这ntile与分位数没有任何关系。

类似资料：

在Spark中使用窗口功能

我试图在火花数据帧中使用rowNumber。我的查询在Spark shell中按预期工作。但是当我在eclipse中写出它们并编译一个jar时，我面临着一个错误我的问题在Spark shell中运行查询时，我没有使用HiveContext。不确定为什么它返回一个错误，当我运行相同的jar文件。如果有帮助的话，我也在Spark 1.6.0上运行脚本。有人面临类似的问题吗？
如何使用postgres窗口功能在会计软件中计算余额

问题内容：有一个包含以下数据的表：现在，我需要一个查询，该查询给出以下结果：如何最好地处理“余额”计算。有人告诉我postgres中有window函数，如何使用postgres window函数来完成呢？谢谢。问题答案： select t.*, sum(“In”-“Out”) over(order by id) as balance from tbl t order by id 小提琴：
如何在JavaFX中从主窗口调用弹出窗口？

main.java--（src/sample文件夹） studentcontroller.java--（src/sample/controller文件夹） studentdao.java和sexdao.java（数据访问对象）--（src/sample/model文件夹） Student.java（公共类学生和构造器）--（src/sample/model文件夹） oddbc的util下的dbut
PySpark：在窗口上计数不同

下面是一些示例代码：这是我希望看到的输出：
如何使用Postgres中的窗口功能选择特定的更改

问题内容：我有一个带有一些外键的表，我需要获取这些键何时更改的报告。 SELECT from，to，FIRST（timestamp）FROM表GROUP BY from，to; 我可以使用“分组依据”来获取前两个过渡，但是它将第三个与第一个过渡组合在一起，当它返回时我看不到它。我想进行以下查询：是否可以？问题答案：在PostgreSQL 8.4中，您可以使用窗口函数LAG访问上一行并进行
Hive中的窗口功能

问题内容：我正在探索Hive中的窗口功能，并且能够理解所有UDF的功能。虽然，我无法理解我们与其他功能配合使用的分区和顺序。以下是与我计划构建的查询非常相似的结构。只是试图了解两个关键字都涉及的后台过程。感谢帮助:) 问题答案：分析函数为数据集中每个分区的每一行分配一个等级。子句确定行的分布方式（如果是配置单元，则在缩减程序之间）。确定行在分区中的排序方式。第一阶段由分配，数据集中

相关阅读

如何在Pyspark中的时间序列数据上使用滑动窗口转换数据使用排名窗口功能的Postgres UPDATE 如何使用PyQt5在同一窗口中更改UI？如何在Java中将窗口居中？如何使用python处理Selenium中的子窗口？

相关文章

Intellij Idea 窗口元素 Eclipse Explore Windows 浏览窗口 ChatGPT的接口如何调用？10.7 WindowManager(窗口管理服务)Tableau数据类型和数据窗口

相关问答

如何在 Flink 1.7.1 Session Windows 中使用窗口状态如何在spark中使用窗口函数过滤数据 Apache Flink：如何在翻滚时间窗口中使用DISTINCT？如何在子进程窗口中使用分页程序？如何在VS2017中禁用新的调试窗口

相关工具

用户引导界面功能定位功能 Eclipse搜索引擎网页应用接口功能齐全的计算器 ActiveReports报表功能展示－ASP.NET

相关文档

PySpark 中文教程如何使用 Gitbook 来做笔记 Sphinx 中文使用手册 StackExchange.Redis 中文使用文档 Neo4j 中文使用手册以及例子