我试图通过编写一些示例查询来了解postgres中的PARTITION BY。我有一个运行查询的测试表。
id integer | num integer
___________|_____________
1 | 4
2 | 4
3 | 5
4 | 6
当我运行以下查询时,我得到了预期的输出。
SELECT id, COUNT(id) OVER(PARTITION BY num) from test;
id | count
___________|_____________
1 | 2
2 | 2
3 | 1
4 | 1
但是,当我将ORDER BY添加到分区时,
SELECT id, COUNT(id) OVER(PARTITION BY num ORDER BY id) from test;
id | count
___________|_____________
1 | 1
2 | 2
3 | 1
4 | 1
我的理解是,COUNT是在属于分区的所有行中计算的。在这里,我按 num 对行进行了分区。不论是否带有ORDER
BY子句,分区中的行数都是相同的。为什么输出会有所不同?
当您将an添加order by
到用作窗口函数的聚合时,该聚合会变成“运行计数”(或您使用的任何聚合)。
在count(*)
将返回行了数,直到基于指定的顺序对“当前”。
以下查询显示了与一起使用的聚合的不同结果order by
。用sum()
代替,count()
比较容易看(我认为)。
with test (id, num, x) as (
values
(1, 4, 1),
(2, 4, 1),
(3, 5, 2),
(4, 6, 2)
)
select id,
num,
x,
count(*) over () as total_rows,
count(*) over (order by id) as rows_upto,
count(*) over (partition by x order by id) as rows_per_x,
sum(num) over (partition by x) as total_for_x,
sum(num) over (order by id) as sum_upto,
sum(num) over (partition by x order by id) as sum_for_x_upto
from test;
将导致:
id | num | x | total_rows | rows_upto | rows_per_x | total_for_x | sum_upto | sum_for_x_upto
---+-----+---+------------+-----------+------------+-------------+----------+---------------
1 | 4 | 1 | 4 | 1 | 1 | 8 | 4 | 4
2 | 4 | 1 | 4 | 2 | 2 | 8 | 8 | 8
3 | 5 | 2 | 4 | 3 | 1 | 11 | 13 | 5
4 | 6 | 2 | 4 | 4 | 2 | 11 | 19 | 11
Postgres手册中还有更多示例
问题内容: 如何为现有数据集创建一个新列,该数据集是一个现有列的运行总数-由某些标识符分区? 我曾经在SQL(Oracle)中使用简单的SUM()OVER()语句来完成此操作,但是显然PROC SQL不支持该语法。 如果可能的话,我想在PROC SQL中完成此工作(我对SQL的经验比对SAS编码的经验要多得多)。 谢谢! 麦克风。 问题答案: 乔-您的答案出于任何原因都没有用,但是却使我处于正确的
所以,我知道一般来说,在以下情况下应该使用 由于或其他可能导致减少原始数据集(RDD、DF)的操作,分区数量减少。对于在过滤大型数据集后更有效地运行操作很有用。 我也知道它比< code>repartition更便宜,因为它通过仅在必要时移动数据来减少洗牌。我的问题是如何定义< code>coalesce采用的参数(< code > idealpartionno )。我正在做一个项目,这个项目是另
我试图在我的查询中创建一个orderBy,并对库中的项目进行分页,但不是对整个查询进行排序,而是一页一页地对内容进行排序,因此如果我对desc进行排序,它只工作一页,当我转到下一页时,我可以找到真正不同的值(排序,但与第一页没有关系)。 下面是我的问题:
我有一个从PHP脚本中获取输入的文本区域,我想在文本区域中计算单词或换行的数量,并在文本区域下面回显它。 这是textarea的代码看起来的样子。 我尝试使用preg_match_all,但无论文本区域内有多少换行符,得到的输出只有“1”。
我需要一些帮助来了解spark如何决定分区的数量,以及它们在executors中是如何处理的,我很抱歉这个问题,因为我知道这是一个重复的问题,但即使在阅读了许多文章后,我仍然不能理解我正在放上一个我目前正在工作的真实生活用例,以及我的Spark提交配置和集群配置。 我的硬件配置: < code>3节点计算机,总Vcores=30,总内存=320 GB。 我正在使用spark dataframe J
本文向大家介绍虚拟化和云计算的区别分析,包括了虚拟化和云计算的区别分析的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了虚拟化和云计算的区别。分享给大家供大家参考,具体如下: 经常有人讨论这两者的区别,在这个行业时间长,听到的也自然很多,这里做一个总结。下面的观点,我想没有对和错,只是理解不同。 所谓虚拟化,虚拟机,vps,其实是差不多一个意思 所谓云计算,广义上肯定是包括一切,不过狭义一点