当前位置: 首页 > 知识库问答 >
问题:

配置单元查询性能优化

曾晨
2023-03-14

为了提高配置单元查询的性能,有哪些优化参数

配置单元版本:-Hive 0.13.1-cdh5.2.1

配置单元查询:-

设置hive.exec.parallel=true;

您能建议任何其他设置,除了以上,以提高配置单元查询的性能,我正在使用的类型查询。

共有1个答案

帅锦
2023-03-14

您可以使用Group By替换DISTINCT,因为只有1个reduce作业可以执行DISTINCT作业。

试试这个

 select chain_number, chain_description 
 from staff.organization_hierarchy
 group by chain_number, chain_description

如果reduce作业号仍然很小。您可以使用mapred.reduct.tasksconfigure指定它

 类似资料:
  • 我对这些技术的理解是否正确?

  • 问题内容: 我不太擅长SQL,因此我要求你们提供有关编写查询的帮助。 [SQL查询-表连接问题]https://codingdict.com/questions/208252) 我得到了答案,并且可以正常工作!它只是明显的缓慢。我讨厌这样做,但是我真的希望有人在那里推荐一些优化查询的方法。我什至没有自己尝试过,因为我对SQL不够了解,甚至无法开始使用谷歌搜索。 问题答案: 可能有帮助的是在要加入的

  • gateway 是 ES 设计用来长期存储索引数据的接口。一般来说,大家都是用本地磁盘来存储索引数据,即 gateway.type 为 local。 数据恢复中,有很多策略调整我们已经在之前分片控制小节讲过。除开分片级别的控制以外,gateway 级别也还有一些可优化的地方: gateway.recover_after_nodes 该参数控制集群在达到多少个节点的规模后,才开始数据恢复任务。这样可

  • 然后,如果我运行这个命令来获取设施表的计数:val facTable=hivec.hql(“select count(*)from facility”),我将得到以下输出,我认为它无法找到要查询它的设施表: 如能提供任何协助,将不胜感激。谢了。

  • 我在Select query where条件下执行了带有自定义配置单元UDF函数的配置单元SQL脚本,它已经运行了两天多。我想知道这里到底有什么问题?调用java需要很多时间,还是查询执行本身需要很多时间? 我的数据集如下,A表有200万条记录,B表有100万条记录,

  • 我正在使用twitter cloudera示例创建一个表,虽然我已经成功地创建了表并获得了数据,但我遇到了一个问题。 我可以执行并返回数据,但当我进行更深入的操作(如)时,我会收到一个错误。 以下是错误和堆栈跟踪: hive>从tweets中选择计数(*);MapReduce作业总数=1启动作业1编译时确定的1个reduce任务中的1个:1为了更改还原器的平均负载(以字节为单位):set hive