在MongoDB聚合管道中,从一个阶段到另一个阶段的记录流一次发生一个/批(或者)将等待当前阶段完成整个收集,然后再将其传递到下一个阶段?
例如,我有一个包含以下示例记录的集合类测试
{name: "Person1", marks: 20}
{name: "Person2", marks: 20}
{name: "Person1", marks: 20}
我总共有大约100名学生的1000条记录,我有以下汇总查询
db.classtest.aggregate(
[
{$sort: {name: 1}},
{$group: {_id: '$name',
total: {$sum: '$marks'}}},
{$limit: 5}
])
我有以下问题。
我的实际想法是对聚合结果进行分页。在上面的场景中,如果$group维护排序顺序,并且只处理所需数量的记录,那么我想在后续页面查询中应用$匹配条件{$ge:“lastPersonName”}
。
>
$limit
限制前一个$排序
操作的已处理元素数,而不仅仅是传递到下一阶段的元素数。请参见http://docs.mongodb.org/manual/reference/operator/aggregation/limit/
对于您提出的第一个问题,我不确定,但似乎(见1.)阶段n 1会影响阶段n的行为:限制将排序操作限制为其前n个元素,并且排序操作不会完成,就好像以下限制阶段不存在一样。
这里要考虑的前几件事是聚合框架与要应用的阶段的“管道”一起工作以获得结果。如果您熟悉在操作系统的“命令行”或“shell”上处理事物,那么您可能对“管道”或|
运算符有一些经验。
以下是常见的unix习惯用法:
ps -ef | grep mongod | tee "out.txt"
在这种情况下,此处ps-ef
的第一个命令的输出被“管道”传输到下一个命令grep monhk
,然后将其输出“管道”传输到三通out.txt
,它既输出到终端,也输出到指定的文件名。这是一个“管道”,每个阶段“馈送”下一个阶段,并按照它们写入的顺序“顺序”。
聚合管道也是如此。这里的“管道”实际上是一个“数组”,它是一组有序的指令,在处理数据时要传递给结果。
db.classtest.aggregate([
{ "$group": {
"_id": "$name",
"total": { "$sum": "$marks"}
}},
{ "$sort": { "name": 1 } },
{ "$limit": 5 }
])
因此,这里发生的事情是,集合中的所有项目首先由$组处理,以获得它们的总数。分组没有指定的“顺序”,因此对数据进行预排序没有多大意义。这样做也没有任何意义,因为你还没有进入你的后期阶段。
然后,您可以根据需要对结果进行排序,还可以进行限额排序。
对于下一个数据“页面”,理想情况下,您希望在找到的最后一个唯一名称上匹配$,如下所示:
db.classtest.aggregate([
{ "$match": { "name": { "$gt": lastNameFound } }},
{ "$group": {
"_id": "$name",
"total": { "$sum": "$marks"}
}},
{ "$sort": { "name": 1 } },
{ "$limit": 5 }
])
这不是最好的解决方案,但对于这种类型的分组确实没有替代方案。然而,随着每次迭代接近尾声,它会明显变得“更快”。或者,如果您的数据允许,存储所有unqiue名称(或从另一个集合中读取该名称)并在该列表中“分页”,并对每个聚合语句进行“范围查询”可能是一个可行的选择。
类似于:
db.classtest.aggregate([
{ "$match": { "name": { "$gte": "Allan", "$lte": "David" } }},
{ "$group": {
"_id": "$name",
"total": { "$sum": "$marks"}
}},
{ "$sort": { "name": 1 } },
])
不幸的是,没有“限制分组直到x个结果”选项,因此除非您可以使用另一个列表,否则您基本上是在对您发送的每个聚合查询进行分组(每次可能会逐渐缩小集合)。
我已经解决了这个问题,无需维护另一个集合,甚至无需$group遍历整个集合,因此发布了我自己的答案。
正如其他人指出的那样:
$group
不保留顺序,因此早期排序没有太大帮助。$group
不做任何优化,即使有以下$限制
,即在整个集合上运行$group
。我的用例有以下独特的特性,这些特性帮助我解决了这个问题:
>
我对页面大小不是很挑剔。能够处理不同页面大小的前端。以下是我使用的聚合命令。
db.classtest.aggregate(
[
{$sort: {name: 1}},
{$limit: 5 * 10},
{$group: {_id: '$name',
total: {$sum: '$marks'}}},
{$sort: {_id: 1}}
])
解释上述内容。
>
$排序
紧接在$限制
之前,框架会优化要发送到下一阶段的数据量。参考这里$group
阶段。有了这个,最终结果的大小可能在0到50之间。然后最后一条记录中的名称(在保留的结果中)在后续页面请求中用作$匹配条件,如下所示。
db.classtest.aggregate(
[
{$match: {name: {$gt: lastRecordName}}}
{$sort: {name: 1}},
{$limit: 5 * 10},
{$group: {_id: '$name',
total: {$sum: '$marks'}}},
{$sort: {_id: 1}}
])
在上面,该框架仍将把$match、$sort和$limit作为单个操作一起优化,我已经通过explain plan确认了这一点。
我想执行一个进行基本分页的聚合查询: 查找属于某个 以下是查询的详细信息: 这将查找所有匹配的文档: 这对文档进行了排序: 这会对文档进行计数,并传递未修改的文档,但我肯定这样做是错误的,因为事情从这里开始变得很奇怪: 这似乎跳过了一些文档: 这本应限制文件,但却没有: 这会返回计数,但不会返回数组中的文档,而是返回每个字段的数组: 结果是: 我哪里弄错了?
本文向大家介绍MongoDB教程之聚合(count、distinct和group),包括了MongoDB教程之聚合(count、distinct和group)的使用技巧和注意事项,需要的朋友参考一下 1. count: 2. distinct: distinct用来找出给定键的所有不同的值。使用时也必须指定集合和键。 3. group: group做的聚合有些复杂。先
是否有任何方法可以使用带聚合的弹性搜索进行分页?elasticsearch版本为2.3。以下是查询:
我使用Nodejs和MongoDB与expressjs和mongoose库,创建一个具有用户、文章和评论模式的博客API。下面是我使用的模式。
问题内容: 想象一下,我有两种记录:一个存储桶和一个项目,其中存储在存储桶中的项目,而存储桶中的项目可能相对较少(通常不超过4个,从不超过10个)。这些记录被压缩为一个(具有更多存储桶信息的项目),并放置在Elasticsearch中。我要解决的任务是通过依赖项属性的过滤查询一次找到500个存储桶(最大),其中包含所有相关项,而我受困于限制/抵消聚合。我该如何执行此类任务?我看到聚合使我可以控制相
问题内容: 我想使用Elasticseach聚合器查询的’size’和’from’属性进行分页。 这可能吗 ? 目前,我只知道size属性= 0可获得无限结果 问题答案: 聚合中的分页功能尚未实现。您可以在大小上使用组合,而在构面中排除特征。