更好的SQL-：group vs.：select =>'DISTINCT'

柏高丽

2023-03-14

问题内容：

让我们假设三种模型，标准联接：

class Mailbox < ActiveRecord::Base
  has_many :addresses
  has_many :domains, :through => :addresses
end

class Address < ActiveRecord::Base
  belongs_to :mailbox
  belongs_to :domain
end

class Domain < ActiveRecord::Base
  has_many :addresses
  has_many :mailboxes, :through => :addresses
end

现在显然，如果您想知道给定邮箱在哪个域中的地址，则有两种可能的解决方法：

m = Mailbox.first
# either: SELECT DISTINCT domains.id, domains.name FROM "domains" INNER JOIN 
#         "addresses" ON "domains".id = "addresses".domain_id WHERE 
#         (("addresses".mailbox_id = 1))
m.domains.all(:select => 'DISTINCT domains.id, domains.name')
# or: SELECT domains.id, domains.name FROM "domains" INNER JOIN "addresses" ON
#     "domains".id = "addresses".domain_id WHERE (("addresses".mailbox_id = 1))
#      GROUP BY domains.id, domains.name
m.domains.all(:select => 'domains.id, domains.name', 
  :group => 'domains.id, domains.name')

对我来说，问题是我不知道哪种解决方案更好。当我不指定任何其他条件时，PostgreSQL查询计划程序倾向于使用解决方案二（按预期工作），但是如果我向查询添加条件，则归结为“唯一”与“组”：

使用“ DISTINCT”：

 Unique  (cost=16.56..16.57 rows=1 width=150)
   ->  Sort  (cost=16.56..16.56 rows=1 width=150)
         Sort Key: domains.name, domains.id
         ->  Nested Loop  (cost=0.00..16.55 rows=1 width=150)
               ->  Index Scan using index_addresses_on_mailbox_id on addresses  (cost=0.00..8.27 rows=1 width=4)
                     Index Cond: (mailbox_id = 1)
               ->  Index Scan using domains_pkey on domains  (cost=0.00..8.27 rows=1 width=150)
                     Index Cond: (domains.id = addresses.domain_id)
                     Filter: (domains.active AND domains.selfmgmt)
(9 rows)

使用“ GROUP BY”：

Group  (cost=16.56..16.57 rows=1 width=150)
   ->  Sort  (cost=16.56..16.56 rows=1 width=150)
         Sort Key: domains.name, domains.id
         ->  Nested Loop  (cost=0.00..16.55 rows=1 width=150)
               ->  Index Scan using index_addresses_on_mailbox_id on addresses  (cost=0.00..8.27 rows=1 width=4)
                     Index Cond: (mailbox_id = 1)
               ->  Index Scan using domains_pkey on domains  (cost=0.00..8.27 rows=1 width=150)
                     Index Cond: (domains.id = addresses.domain_id)
                     Filter: (domains.active AND domains.selfmgmt)
(9 rows)

我真的不确定如何确定检索这些数据的更好方法。我的直觉告诉我要使用“ GROUP BY”，但是我找不到足够具体的文档来解决此问题。

我应该使用“：group”还是“：select
=>’DISTINCT’”？这个选择是否与其他现代RDBMS（例如Oracle，DB2或MySQL）一样（我无法访问这些，所以我无法执行测试）？

问题答案：

如果您使用的是Postgresql <8.4（考虑到计划，我想是的）–通常最好使用GROUP BY而不是，DISTINCT因为它的计划更加有效。

在8.4中，没有区别，因为DISTINCT被“教导”也可以使用组运算符。

更好的SQL-：group vs.：select =>'DISTINCT'

相关阅读

相关文章

相关问答

相关工具

相关文档