当前位置: 首页 > 编程笔记 >

SQL优化之针对count、表的连接顺序、条件顺序、in及exist的优化

刘和玉
2023-03-14
本文向大家介绍SQL优化之针对count、表的连接顺序、条件顺序、in及exist的优化,包括了SQL优化之针对count、表的连接顺序、条件顺序、in及exist的优化的使用技巧和注意事项,需要的朋友参考一下

本文详述了SQL优化中针对count、表的连接顺序、条件顺序、in及exist的优化,非常具有实用价值!详述如下:

一、关于count

看过一些网上关于count(*)和count(列)的文章,count(列)的效率一定比count(*)高吗?

其实个人觉得count(*)和count(列)根本就没有可比性,count(*)统计的是表里面的总条数,而count(列)统计的是当列的非空记录条数。

不过我们可以通过实验来比较一下:

首先创建测试表:

drop table test purge;
create table test as select * from dba_objects;

update test set object_id =rownum ;
set timing on 
set linesize 1000
set autotrace on 

执行

select count(*) from test;
select count(object_id) from test;

发现耗时是一样的,难道他们的效率其实是一样的吗?

我们在列object_id上创建索引试试看

create index idx_object_id on test(object_id);

然后再执行

select count(*) from test;
select count(object_id) from test;

发现count(object_id)的速度明显比count(*)高出一大截,难道是因为count(object_id)能用到索引,所以效率才提高了很多?

我们再修改下object_id的列属性

alter table test modify object_id not null;

然后再执行

select count(*) from test;
select count(object_id) from test;

发现其实他们的速度是一样快的,count(*)也可用到索引。
其实效率比较的前提是两个语句的写法要等价,这两种写法根本就不等价,因此不具有可比性。

对于oracle优化器来说,我们可以通过实验发现,count不同的列,统计的时间是不一样的,大致趋势是列越靠后,访问的开销越大,列的偏移量决定访问的性能。而count(*)的开销与偏移量无关。因此,在某些场合count(*)反而是最快的。

二、关于in和exist

关于in和exist的说法大都是说in的效率比exist高,所以有in的地方必需得换成exist等等。但是真的是这样的吗?

下面我们来做个试验:

在Oracle 10g中;

select * from dept where deptno NOT IN ( select deptno from emp ) ;
select * from dept where not exists ( select deptno from emp where emp.deptno=dept.deptno) ;

我们发现,exist确实比in的效率高啊。这个说法貌似是成立的啊。

但是我们再执行下面的语句

select * from dept where deptno NOT IN ( select deptno from emp where deptno is not null) and deptno is not null;

你会发现加上非空的约束条件后,in和exist的效率是一样的。

查看三个语句的执行计划你就会发现,没有加上非空约束的in语句和exist语句走的都是ANTI半连接算法,所以效率是一样的,而未加非空约束的in语句用的是filter,而不是ANTI算法,所以效率就差一些。

所以我们可以得出结论:在oracle 10g中,如果可以确保非空,则in约束可以用到ANTI的半连接算法,这时候的效率和exist是一样的。

在Oracle 11g中:

select * from dept where deptno NOT IN ( select deptno from emp ) ;
select * from dept where not exists ( select deptno from emp where emp.deptno=dept.deptno) ;

我们发现两个语句的效率是一样的,查看执行计划也是一样的。原来oracle在11g中已经做了优化,所以in和exist的效率是一样的。

由此我们可以得出结论,在11g中,使用in和exist的效率是一样的,因为他们走的都是比较高效的ANTI算法。

三、关于大小表的连接顺序

在网上我们可以看到很多这样的文章,在进行多表查询的时候,用小表或者交叉表做基础表,放在后面,大表放在from后面的位置,因为表的访问顺序是从右往左的。

但是真的是这样的吗?

我们可以做实验验证一下(此处测试环境为 Oracle 11g):

create table tab_big as select * from dba_objects where rownum<=30000;
create table tab_small as select * from dba_objects where rownum<=10;
set autotrace traceonly
set linesize 1000
set timing on 
select count(*) from tab_big,tab_small ; 
select count(*) from tab_small,tab_big ;

我们查看执行计划可以发现,这两个语句的效率是一样的,难道多表查询,表的顺序和效率无关吗?

我们在执行下面的语句:

select /*+rule*/ count(*) from tab_big,tab_small ; 
select /*+rule*/ count(*) from tab_small,tab_big ;

我们可以清楚的发现,小表在右,大表在左的语句,查询效率高很多。

其实,在基于规则时代,查询效率是和表的连接顺序相关的,小表或者交叉表在左,大表在右的执行效率会高一些。但是现在基本上是基于代价的时代,所以大小表的顺序和效率无关,oracle优化器会自动去进行效率优化。

四、where子句中的连接条件顺序

在基于规则时代,oracle采用自下而上的顺序来解析where子句,根据这个原理,我们一般会将可能返回行数最少的表放在最后面,where子句中有过滤条件的子句放在最后面。

但是在现在基于代价时代,这种优化都有oracle优化器帮忙优化了,所以关于表的顺序和条件的顺序已经不会影响我们的查询效率了。

 类似资料:
  • 问题内容: 假设我使用where子句查询数据库 有什么办法可以按_id在列表中列出的顺序对返回的游标进行排序?_id属性在Cursor中从头到尾分别为5、6、424、2? 碰巧这是通过ContentProvider在Android上进行的,但这可能无关紧要。 问题答案: 使用子查询选择ID列表并加入它: UPD: 固定代码

  • 问题内容: 我试图弄清楚为什么我的一个css类似乎覆盖了另一个(而不是相反) 这里我有两个CSS类 在我看来,我打电话给 字体(重叠元素)显示为10px而不是20px-有人可以解释为什么会这样吗? 问题答案: 有几条规则(按此顺序应用): 内联css(html样式属性)覆盖样式标签和css文件中的css规则 较具体的选择器优先于较不具体的选择器 如果两个规则具有相同的特异性,则稍后出现在代码中的规

  • 问题内容: 我有一个包含5个整数ID的表,并想添加一列以接受这些ID,对其进行排序并以类似于以下内容的方式将它们连接起来。 是否有使订购更快更轻松的功能?上帝禁止我必须手动编写订单。 问题答案: 您也可以使用(在线演示)

  • 问题内容: 我想知道是否有按IN()子句中的值顺序进行排序的方法(可能是一种更好的方法)。 问题是我有2个查询,一个查询获取所有ID,第二个查询获取所有信息。第一个创建我要第二个排序的ID的顺序。这些ID以正确的顺序放入IN()子句中。 因此,它类似于(极其简化): 问题在于第二个查询不会以将ID放入IN()子句中的顺序来返回结果。 我发现的一种解决方案是将所有ID放入具有自动递增字段的临时表中,

  • 问题内容: 大家好,我有一个需要优化的查询。它的工作原理,但它的狗,表现明智。 内容如下: 我正在跟踪查看不同页面的视图,并且我想知道每个会话的最高页面,以便了解在任何给定条件下他们的点击量(从头到尾查看所有页面)会议。 基本上,我想做的是在GROUP之前对结果进行排序。以上是实现的,成本很高。 谁能用这个方法拍我的脑袋?谢谢你们! 更新: 说明: 模式: 索引信息: 问题答案: 我正在跟踪查看不

  • 所以我的问题是: 总是设置优先级的setter注入,还是有某个属性定义它。 为什么Setter注入优先于构造函数注入