当前位置: 首页 > 面试题库 >

仅获取按列分组的最新行

欧阳智志
2023-03-14
问题内容

我有大量的已发送电子邮件和状态码数据集。

ID Recipient           Date       Status
 1 someone@example.com 01/01/2010      1
 2 someone@example.com 02/01/2010      1
 3 them@example.com    01/01/2010      1
 4 them@example.com    02/01/2010      2
 5 them@example.com    03/01/2010      1
 6 others@example.com  01/01/2010      1
 7 others@example.com  02/01/2010      2

在此示例中:

  • 发送给 某人的 所有电子邮件的状态均为 1
  • 发送给 他们 的中间电子邮件(按日期)的状态为 2 ,但最新的为 1
  • 最近发送给 他人的 电子邮件的状态为 2

我需要检索的是发送给每个人的所有电子邮件的计数,以及 最新的 状态代码是什么。

第一部分非常简单:

SELECT Recipient, Count(*) EmailCount
FROM Messages
GROUP BY Recipient
ORDER BY Recipient

这给了我:

Recipient           EmailCount
someone@example.com 2
them@example.com    3
others@example.com  2

我如何也可以获得最新的状态代码?

最终结果应为:

Recipient           EmailCount LastStatus
someone@example.com          2          1
them@example.com             3          1
others@example.com           2          2

谢谢。

html" target="_blank">服务器是Microsoft SQL Server 2008,正在通过.Net中的OleDbConnection运行查询)


问题答案:

这是“最大每组”查询的示例。我认为将其分为两个子查询然后将结果合并起来是最容易理解的。

第一个子查询就是您已经拥有的子查询。

第二个子查询使用窗口函数ROW_NUMBER对每个收件人的电子邮件进行编号,以最近的1开头,然后是2、3等等。

然后将第一个查询的结果与行号为1(即最新)的第二个查询的结果相结合。这样可以确保在有关系的情况下,每个收件人只能获得一行。

这是查询:

SELECT T1.Recipient, T1.EmailCount, T2.Status FROM
(
    SELECT Recipient, COUNT(*) AS EmailCount
    FROM Messages
    GROUP BY Recipient
) T1
JOIN
(
    SELECT
        Recipient,
        Status,
        ROW_NUMBER() OVER (PARTITION BY Recipient ORDER BY Date Desc) AS rn
    FROM Messages
) T2
ON T1.Recipient = T2.Recipient AND T2.rn = 1

得到以下结果:

Recipient            EmailCount  Status  
others@example.com   2           2       
someone@example.com  2           1       
them@example.com     3           1


 类似资料:
  • 问题内容: 我有一个看起来与此类似的表: 我该如何在Postgres中编写查询以仅返回按表中每个唯一字符分组的最新(按)行? 问题答案: 用途:

  • 我的数据库中有以下数据: 我想获得每个模型组的最新日期: 我试过:

  • 在MySql表中拥有以下数据: 我想选择唯一的unit_code(unit_code可以在表中的unit_code列中出现几次),日期为最大值且日期等于或小于今天的金额和日期。我在努力,但还没有接近结果。

  • 我有一个熊猫DataFrame看起来像这样: 我的目标是能够为每个项目计算每个日期之间的价值差异。例如,我想找到A项: 12(32-20,因为最大年份是2012年,最小年份是2010年)和B项:20 (40 - 20,因为最大年份是2019年,最小年份是2016年)。 我使用以下代码获取每个项目的年最大值和年最小值: 然后,我找到每个项目的年份最小值和年份最大值。然而,我坚持做我想要的。

  • 我有对象要按文档ID分组。分组后,我想获得它们的“最大值”。这就是我目前掌握的: 文档类: 重要的是,我已经实现了一个compareTo函数。我不确定在< code>groupingBy子句的< code>reducer参数中放什么。我也试过: 但无济于事。

  • 问题内容: 假设我们有以下定义的Django ORM模型: 我想获取每种语言的最新聚会。 看来您可以使用Django Aggregates简化 查找过程: 在我看来,这应该获取每种语言的“最新”聚会。但是事实并非如此: 我希望能得到两个最新的Python和Node见面会! 如何构造仅获取每种语言的最新聚会的查询? PS。 我正在使用MySQL作为后端。 问题答案: 将您的条款放在之前。 从聚合文档