当前位置: 首页 > 知识库问答 >
问题:

MongoDB聚合$group后跟分页的$限制

缑赤岩
2023-03-14

在MongoDB聚合管道中,从一个阶段到另一个阶段的记录流一次发生一个/批(或者)将等待当前阶段完成整个收集,然后再将其传递到下一个阶段?

例如,我有一个包含以下示例记录的集合类测试

{name: "Person1", marks: 20}
{name: "Person2", marks: 20}
{name: "Person1", marks: 20}

我总共有大约100名学生的1000条记录,我有以下汇总查询

    db.classtest.aggregate(
[
    {$sort: {name: 1}},
    {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
    {$limit: 5}
])

我有以下问题。

  1. 排序顺序在最终结果中丢失。如果我在$group之后放置另一个排序,则结果会正确排序。这是否意味着$group不维护之前的排序顺序?
  2. 我想将结果限制为5。在传递到限制之前,组操作是否必须完全完成(对于所有1000条记录)。(或)组操作在有记录时将记录传递到限制阶段,并在满足限制阶段的要求时停止处理?

我的实际想法是对聚合结果进行分页。在上面的场景中,如果$group维护排序顺序,并且只处理所需数量的记录,那么我想在后续页面查询中应用$匹配条件{$ge:“lastPersonName”}

  1. 我不想在$group之前应用$限制,因为我想要5名学生的结果,而不是前5条记录。
  2. 我可能不想使用$skip,因为这意味着有效地遍历这些记录。

共有3个答案

蔚弘量
2023-03-14

>

$limit限制前一个$排序操作的已处理元素数,而不仅仅是传递到下一阶段的元素数。请参见http://docs.mongodb.org/manual/reference/operator/aggregation/limit/

对于您提出的第一个问题,我不确定,但似乎(见1.)阶段n 1会影响阶段n的行为:限制将排序操作限制为其前n个元素,并且排序操作不会完成,就好像以下限制阶段不存在一样。

屠华辉
2023-03-14

这里要考虑的前几件事是聚合框架与要应用的阶段的“管道”一起工作以获得结果。如果您熟悉在操作系统的“命令行”或“shell”上处理事物,那么您可能对“管道”或|运算符有一些经验。

以下是常见的unix习惯用法:

ps -ef | grep mongod | tee "out.txt"

在这种情况下,此处ps-ef的第一个命令的输出被“管道”传输到下一个命令grep monhk,然后将其输出“管道”传输到三通out.txt,它既输出到终端,也输出到指定的文件名。这是一个“管道”,每个阶段“馈送”下一个阶段,并按照它们写入的顺序“顺序”。

聚合管道也是如此。这里的“管道”实际上是一个“数组”,它是一组有序的指令,在处理数据时要传递给结果。

db.classtest.aggregate([
    { "$group": {
      "_id": "$name",
      "total": { "$sum": "$marks"}
    }},
    { "$sort": { "name": 1 } },
    { "$limit": 5 }
])  

因此,这里发生的事情是,集合中的所有项目首先由$组处理,以获得它们的总数。分组没有指定的“顺序”,因此对数据进行预排序没有多大意义。这样做也没有任何意义,因为你还没有进入你的后期阶段。

然后,您可以根据需要对结果进行排序,还可以进行限额排序。

对于下一个数据“页面”,理想情况下,您希望在找到的最后一个唯一名称上匹配$,如下所示:

db.classtest.aggregate([
    { "$match": { "name": { "$gt": lastNameFound } }},
    { "$group": {
      "_id": "$name",
      "total": { "$sum": "$marks"}
    }},
    { "$sort": { "name": 1 } },
    { "$limit": 5 }
])  

这不是最好的解决方案,但对于这种类型的分组确实没有替代方案。然而,随着每次迭代接近尾声,它会明显变得“更快”。或者,如果您的数据允许,存储所有unqiue名称(或从另一个集合中读取该名称)并在该列表中“分页”,并对每个聚合语句进行“范围查询”可能是一个可行的选择。

类似于:

db.classtest.aggregate([
    { "$match": { "name": { "$gte": "Allan", "$lte": "David" } }},
    { "$group": {
      "_id": "$name",
      "total": { "$sum": "$marks"}
    }},
    { "$sort": { "name": 1 } },
])  

不幸的是,没有“限制分组直到x个结果”选项,因此除非您可以使用另一个列表,否则您基本上是在对您发送的每个聚合查询进行分组(每次可能会逐渐缩小集合)。

呼延钱明
2023-03-14

我已经解决了这个问题,无需维护另一个集合,甚至无需$group遍历整个集合,因此发布了我自己的答案。

正如其他人指出的那样:

  1. $group不保留顺序,因此早期排序没有太大帮助。
  2. $group不做任何优化,即使有以下$限制,即在整个集合上运行$group

我的用例有以下独特的特性,这些特性帮助我解决了这个问题:

>

  • 每个学生最多有10条记录(最少1条)。
  • 我对页面大小不是很挑剔。能够处理不同页面大小的前端。以下是我使用的聚合命令。

    db.classtest.aggregate(
    [
        {$sort: {name: 1}},
        {$limit: 5 * 10},
        {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
        {$sort: {_id: 1}}
    ])
    

    解释上述内容。

    >

  • 如果$排序紧接在$限制之前,框架会优化要发送到下一阶段的数据量。参考这里
  • 要获得至少5条记录(页面大小),我需要将至少5条(页面大小)*10条(每个学生的最大记录)=50条记录传递到$group阶段。有了这个,最终结果的大小可能在0到50之间。
  • 如果结果小于5,则不需要进一步的分页。
  • 如果结果大小大于5,则可能最后一条学生记录没有被完全处理(即没有对所有学生记录进行分组),因此我从结果中丢弃最后一条记录。
  • 然后最后一条记录中的名称(在保留的结果中)在后续页面请求中用作$匹配条件,如下所示。

    db.classtest.aggregate(
    [
        {$match: {name: {$gt: lastRecordName}}}
        {$sort: {name: 1}},
        {$limit: 5 * 10},
        {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
        {$sort: {_id: 1}}
    ])
    

    在上面,该框架仍将把$match、$sort和$limit作为单个操作一起优化,我已经通过explain plan确认了这一点。

  •  类似资料:
    • 我想执行一个进行基本分页的聚合查询: 查找属于某个 以下是查询的详细信息: 这将查找所有匹配的文档: 这对文档进行了排序: 这会对文档进行计数,并传递未修改的文档,但我肯定这样做是错误的,因为事情从这里开始变得很奇怪: 这似乎跳过了一些文档: 这本应限制文件,但却没有: 这会返回计数,但不会返回数组中的文档,而是返回每个字段的数组: 结果是: 我哪里弄错了?

    • 本文向大家介绍MongoDB教程之聚合(count、distinct和group),包括了MongoDB教程之聚合(count、distinct和group)的使用技巧和注意事项,需要的朋友参考一下 1. count:      2. distinct:     distinct用来找出给定键的所有不同的值。使用时也必须指定集合和键。   3. group:     group做的聚合有些复杂。先

    • 是否有任何方法可以使用带聚合的弹性搜索进行分页?elasticsearch版本为2.3。以下是查询:

    • 我使用Nodejs和MongoDB与expressjs和mongoose库,创建一个具有用户、文章和评论模式的博客API。下面是我使用的模式。

    • 问题内容: 想象一下,我有两种记录:一个存储桶和一个项目,其中存储在存储桶中的项目,而存储桶中的项目可能相对较少(通常不超过4个,从不超过10个)。这些记录被压缩为一个(具有更多存储桶信息的项目),并放置在Elasticsearch中。我要解决的任务是通过依赖项属性的过滤查询一次找到500个存储桶(最大),其中包含所有相关项,而我受困于限制/抵消聚合。我该如何执行此类任务?我看到聚合使我可以控制相

    • 问题内容: 我想使用Elasticseach聚合器查询的’size’和’from’属性进行分页。 这可能吗 ? 目前,我只知道size属性= 0可获得无限结果 问题答案: 聚合中的分页功能尚未实现。您可以在大小上使用组合,而在构面中排除特征。