当前位置: 首页 > 知识库问答 >
问题:

关于配置单元中的analyze命令

段良弼
2023-03-14

HDFS读取:13245 HDFS写入:72成功MapReduce CPU花费的总时间:2秒300毫秒

确定所用时间:63.787秒

共有1个答案

严心水
2023-03-14

analyze命令主要用于收集表、列和分区的统计信息。

对于现有的表和/或分区,用户可以发出ANALYZE命令来收集统计信息并将其写入Hive Metaxore,而不仅仅是为了显示表的数据。

来源:-https://cwiki.apache.org/confluence/display/hive/statsdev

 类似资料:
  • 我在java中开发了一个工作正常的配置单元udf,我的函数返回输入与配置单元表中列之间的最佳匹配,因此它有以下简化的伪代码: 我的问题是,如果这个函数是由Hive调用的,为什么我需要在代码中连接到Hive?我可以使用使用我的功能的用户所连接的当前连接吗?

  • 现在我在复制的缓存上使用SQL select语句。现在这些缓存的写入同步模式是FULL_SYNC。 现在,我们只能在一个DC中工作客户端节点,而不能同时在两个DC中工作。假设我们有两个客户在DC1。 因此,节点总数为6个(在DC1中有2个客户端节点和2个服务器节点,在DC2中有2个服务器节点)。 我们的用例是这样一种方式… 2个客户端应该只查询DC1中的2个服务器节点,而不是DC2中的其他2个服务

  • 我已经检查了相关的线程-如何在配置单元脚本中设置变量 在hive内部,变量运行良好: 错误:java.lang.IllegalArgumentException:无法从空字符串创建路径:位于org.apache.hadoop.fs.Path.CheckPathArg(Path.java:131)(位于org.apache.hadoop.fs.Path.(Path.java:139)(位于org.a

  • 我已经在hive:udfrowsequence中尝试过这个UDF。 但是它不产生唯一的值,即它依赖于映射器重复序列。 假设我有一个文件(有4条记录)在HDFS中可用。它将为该作业创建一个映射器,结果将类似于 1 2 3 4 1 2 3 4 1 2 。

  • 然后错误显示在蜂巢: 失败:执行错误,从org.apache.hadoop.hive.ql.exec.mr.MapRedWork返回代码-101。org.apache.hadoop.mapreduce.v2.util.MRApps.setEnvFromInputProperties(Ljava/util/Map;Ljava/lang/String;Ljava/lang/String;Lorg/ap

  • 问题内容: 我想在MySQL中获得类似于PostgreSQL中EXPLAIN ANALYZE所示的详细查询计划。有等同的吗? 问题答案: 编辑:虽然不是直接等效项,也不像解释分析那样详细,但是您可以查看一些工具 mysql提供EXPLAIN和过程analyse() http://dev.mysql.com/doc/refman/5.0/en/explain.html http://dev.mysq