当前位置: 首页 > 面试题库 >

用Order By计算分区中的行

裴浩歌
2023-03-14
问题内容

我试图通过编写一些示例查询来了解postgres中的PARTITION BY。我有一个运行查询的测试表。

id integer | num integer
___________|_____________
1          | 4 
2          | 4
3          | 5
4          | 6

当我运行以下查询时,我得到了预期的输出。

SELECT id, COUNT(id) OVER(PARTITION BY num) from test;

id         | count
___________|_____________
1          | 2 
2          | 2
3          | 1
4          | 1

但是,当我将ORDER BY添加到分区时,

SELECT id, COUNT(id) OVER(PARTITION BY num ORDER BY id) from test;

id         | count
___________|_____________
1          | 1 
2          | 2
3          | 1
4          | 1

我的理解是,COUNT是在属于分区的所有行中计算的。在这里,我按 num 对行进行了分区。不论是否带有ORDER
BY子句,分区中的行数都是相同的。为什么输出会有所不同?


问题答案:

当您将an添加order by到用作窗口函数的聚合时,该聚合会变成“运行计数”(或您使用的任何聚合)。

count(*)将返回行了数,直到基于指定的顺序对“当前”。

以下查询显示了与一起使用的聚合的不同结果order by。用sum()代替,count()比较容易看(我认为)。

with test (id, num, x) as (
  values 
    (1, 4, 1),
    (2, 4, 1),
    (3, 5, 2),
    (4, 6, 2)
)
select id, 
       num,
       x,
       count(*) over () as total_rows, 
       count(*) over (order by id) as rows_upto,
       count(*) over (partition by x order by id) as rows_per_x,
       sum(num) over (partition by x) as total_for_x,
       sum(num) over (order by id) as sum_upto,
       sum(num) over (partition by x order by id) as sum_for_x_upto
from test;

将导致:

id | num | x | total_rows | rows_upto | rows_per_x | total_for_x | sum_upto | sum_for_x_upto
---+-----+---+------------+-----------+------------+-------------+----------+---------------
 1 |   4 | 1 |          4 |         1 |          1 |           8 |        4 |              4
 2 |   4 | 1 |          4 |         2 |          2 |           8 |        8 |              8
 3 |   5 | 2 |          4 |         3 |          1 |          11 |       13 |              5
 4 |   6 | 2 |          4 |         4 |          2 |          11 |       19 |             11

Postgres手册中还有更多示例



 类似资料:
  • 问题内容: 如何为现有数据集创建一个新列,该数据集是一个现有列的运行总数-由某些标识符分区? 我曾经在SQL(Oracle)中使用简单的SUM()OVER()语句来完成此操作,但是显然PROC SQL不支持该语法。 如果可能的话,我想在PROC SQL中完成此工作(我对SQL的经验比对SAS编码的经验要多得多)。 谢谢! 麦克风。 问题答案: 乔-您的答案出于任何原因都没有用,但是却使我处于正确的

  • 所以,我知道一般来说,在以下情况下应该使用 由于或其他可能导致减少原始数据集(RDD、DF)的操作,分区数量减少。对于在过滤大型数据集后更有效地运行操作很有用。 我也知道它比< code>repartition更便宜,因为它通过仅在必要时移动数据来减少洗牌。我的问题是如何定义< code>coalesce采用的参数(< code > idealpartionno )。我正在做一个项目,这个项目是另

  • 我试图在我的查询中创建一个orderBy,并对库中的项目进行分页,但不是对整个查询进行排序,而是一页一页地对内容进行排序,因此如果我对desc进行排序,它只工作一页,当我转到下一页时,我可以找到真正不同的值(排序,但与第一页没有关系)。 下面是我的问题:

  • 我有一个从PHP脚本中获取输入的文本区域,我想在文本区域中计算单词或换行的数量,并在文本区域下面回显它。 这是textarea的代码看起来的样子。 我尝试使用preg_match_all,但无论文本区域内有多少换行符,得到的输出只有“1”。

  • 我需要一些帮助来了解spark如何决定分区的数量,以及它们在executors中是如何处理的,我很抱歉这个问题,因为我知道这是一个重复的问题,但即使在阅读了许多文章后,我仍然不能理解我正在放上一个我目前正在工作的真实生活用例,以及我的Spark提交配置和集群配置。 我的硬件配置: < code>3节点计算机,总Vcores=30,总内存=320 GB。 我正在使用spark dataframe J

  • 本文向大家介绍虚拟化和云计算的区别分析,包括了虚拟化和云计算的区别分析的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了虚拟化和云计算的区别。分享给大家供大家参考,具体如下: 经常有人讨论这两者的区别,在这个行业时间长,听到的也自然很多,这里做一个总结。下面的观点,我想没有对和错,只是理解不同。 所谓虚拟化,虚拟机,vps,其实是差不多一个意思 所谓云计算,广义上肯定是包括一切,不过狭义一点