refresh table 和 msck repair table 的区别

单于轶

2023-12-01

1. MSCK REPAIR TABLE

msck repair table 作用是检查HDFS目录下存在（不存在）但表的metastore中不存在（存在）的元数据信息，更新到metastore中。

每次执行msck repair这个命令，都会检查所有分区的目录是否在元数据中存在，如果是每次新增一个分区的任务（daily的),那么使用这个语句将会越来越耗费时间，建议使用ALTER TABLE ADD PARTITION 命令。MSCK适合一次导入很多分区，需要将这些分区都更新到元数据信息中。

参考：https://stackoverflow.com/questions/45107866/aws-athena-msck-repair-table-takes-too-long-for-a-small-dataset，https://athena.guide/articles/msck-repair-table/

2. REFRESH TABLE

REFRESH是用于重新整理某个分区的文件，重用之前的表元数据信息，能够检测到表的字段的增加或者减少，主要用于表中元数据未修改，表的数据修改,例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等

由于Spark存在一个机制，为了提高性能会缓存Parquet的元数据信息。当通过Hive或其他方式更新了Parquet表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。

对于存储类型为Parquet的Hive分区表，在执行插入数据操作后，如果分区信息未改变，则缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。

解决措施：在使用Spark SQL查询之前，需执行Refresh操作更新元数据信息。

spark中的refresh table 还需要详细的了解一下，还有在工作中遇到一个问题是，正在写入数据的时候，refresh table执行了一次，有一个分区没写成功，这和refresh table 有关系吗？待解决

https://athena.guide/articles/msck-repair-table/

https://www.jianshu.com/p/c1b0dc86f9b0

S3 https://zhuanlan.zhihu.com/p/112057573

refresh table 和 msck repair table 的区别

相关阅读

相关文章

相关问答

相关文档