配置单元查询性能优化

曾晨

2023-03-14

为了提高配置单元查询的性能，有哪些优化参数

配置单元版本：-Hive 0.13.1-cdh5.2.1

配置单元查询：-

设置hive.exec.parallel=true；

您能建议任何其他设置，除了以上，以提高配置单元查询的性能，我正在使用的类型查询。

共有1个答案

帅锦

2023-03-14

您可以使用Group By替换DISTINCT，因为只有1个reduce作业可以执行DISTINCT作业。

试试这个

 select chain_number, chain_description 
 from staff.organization_hierarchy
 group by chain_number, chain_description

如果reduce作业号仍然很小。您可以使用mapred.reduct.tasksconfigure指定它

类似资料：

用Spark优化配置单元SQL查询？

我对这些技术的理解是否正确？
SQL查询-性能优化

问题内容：我不太擅长SQL，因此我要求你们提供有关编写查询的帮助。 [SQL查询-表连接问题]https://codingdict.com/questions/208252) 我得到了答案，并且可以正常工作！它只是明显的缓慢。我讨厌这样做，但是我真的希望有人在那里推荐一些优化查询的方法。我什至没有自己尝试过，因为我对SQL不够了解，甚至无法开始使用谷歌搜索。问题答案：可能有帮助的是在要加入的
性能优化 - gateway配置

gateway 是 ES 设计用来长期存储索引数据的接口。一般来说，大家都是用本地磁盘来存储索引数据，即 gateway.type 为 local。数据恢复中，有很多策略调整我们已经在之前分片控制小节讲过。除开分片级别的控制以外，gateway 级别也还有一些可优化的地方： gateway.recover_after_nodes 该参数控制集群在达到多少个节点的规模后，才开始数据恢复任务。这样可
Spark不能查询它能看到的配置单元表？

然后，如果我运行这个命令来获取设施表的计数：val facTable=hivec.hql（“select count(*)from facility”），我将得到以下输出，我认为它无法找到要查询它的设施表：如能提供任何协助，将不胜感激。谢了。
配置单元UDF性能太慢

我在Select query where条件下执行了带有自定义配置单元UDF函数的配置单元SQL脚本，它已经运行了两天多。我想知道这里到底有什么问题？调用java需要很多时间，还是查询执行本身需要很多时间？我的数据集如下，A表有200万条记录，B表有100万条记录，
Json的配置单元查询错误

我正在使用twitter cloudera示例创建一个表，虽然我已经成功地创建了表并获得了数据，但我遇到了一个问题。我可以执行并返回数据，但当我进行更深入的操作（如）时，我会收到一个错误。以下是错误和堆栈跟踪： hive>从tweets中选择计数(*)；MapReduce作业总数=1启动作业1编译时确定的1个reduce任务中的1个：1为了更改还原器的平均负载（以字节为单位）：set hive

配置单元查询性能优化

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档