postgresql ANALYZE
丌官承
2023-12-01
转载自官方中文文档
名称
ANALYZE -- 收集与数据库有关的统计信息
语法
ANALYZE [ VERBOSE ] [ table [ (column [, ...] ) ] ]
描述
ANALYZE 收集表内容的统计信息,然后把结果保存在系统表 pg_statistic 里。随后,查询规划器就可以使用这些统计帮助判断查询的最佳规划。
如果没有参数,ANALYZE 检查当前数据库里的所有表。如果有参数,ANALYZE 只检查那个表。你还可以给出一列字段名字,这个时候只收集那些字段的统计信息。
参数
VERBOSE
显示处理过程的信息
table
要分析的特定表(可能用模式名修饰)的名字。缺省是当前数据库里所有表。
column
要分析的特定字段的名字。缺省是所有字段。
输出
如果声明了 VERBOSE ,那么 ANALYZE 将发出进度信息,表明当前正在处理的是哪行。同时打印有关改表的很多其它信息。
注意
周期性地运行 ANALYZE ,或者在对表的大部分内容做了更改之后马上运行它是个好习惯,准确的统计信息将帮助规划器选择最合适的查询规划,并因此改善查询处理的速度。一种比较经常采用的策略是每天在低负荷的时候运行一次 VACUUM 和 ANALYZE 。
和 VACUUM FULL 不同的是,ANALYZE 只需要在目标表上有一个读取锁,因此它可以和表上的其它活动并发地运行。
ANALYZE 收集的统计信息通常包括每个字段最常用数值的列表以及显示每个字段里数据近似分布的包线图。如果 ANALYZE 认为它们都没有什么用(比如在一个拥有唯一约束的字段上没有公共的数值)或者是该字段数据类型不支持相关的操作符,那么它们都可以忽略。在章22中有关于统计的更多信息。
对于大表,ANALYZE 采集表内容的一个随机抽样做统计,而不是检查每一行。这样就保证了即使是在很大的表上也只需要很少时间就可以完成分析。不过,要注意的是统计只是近似的结果,而且每次运行 ANALYZE 都会导致 EXPLAIN 显示的规划器的预期开销有一些小变化,即使表内容实际上没有改变也这样。在很小的概率的情况下,这个不确定的行为会导致查询优化器在不同 ANALYZE 之间选择不同的查询规划。为了避免这个问题,可以提高 ANALYZE 收集的统计数量,像下面描述的那样。
分析的广度可以通过用调整 default_statistics_target 配置变量,或者是以每字段为基础通过用 ALTER TABLE ... ALTER COLUMN ... SET STATISTICS (参阅 ALTER TABLE)设置每字段的统计目标来控制。目标数值设置最常用数值列表中的记录的最大数目以及包线图中的最大块数。缺省的目标数值是 10 ,不过可以调节这个数值获取规划器计算精度和 ANALYZE 运行所需要的时间以及 pg_statistic 里面占据的空间数目之间的平衡。特别是,把统计目标设置为零就关闭了该字段的统计收集。这么做对那些从来不参与到查询的 WHERE, GROUP BY, ORDER BY 子句里的字段是很有用的,因为规划器不会使用到这样的字段上的统计。
在被分析的字段中最大的统计目标决定统计采样的行数。增大目标会导致 ANALYZE 的时候成比例地增大对时间和空间的需求。
兼容性
SQL 标准里没有 ANALYZE 语句。
http://blog.csdn.net/scutshuxue/archive/2010/12/14/6075511.aspx