当前位置：首页 > 面试题库 >

Hive-有没有办法进一步优化HiveQL查询？

皇甫敏达

2023-03-14

问题内容：

我写了一个查询来查找3月至4月美国10个最繁忙的机场。它产生所需的输出，但是我想尝试进一步优化它。

是否有任何适用于查询的HiveQL特定优化？ 是GROUPING SETS适用在这里吗？我是Hive的新手，现在这是我提出的最短的查询。

SELECT airports.airport, COUNT(Flights.FlightsNum) AS Total_Flights
FROM (
SELECT Origin AS Airport, FlightsNum 
  FROM flights_stats
  WHERE (Cancelled = 0 AND Month IN (3,4))
UNION ALL
SELECT Dest AS Airport, FlightsNum 
  FROM flights_stats
  WHERE (Cancelled = 0 AND Month IN (3,4))
) Flights
INNER JOIN airports ON (Flights.Airport = airports.iata AND airports.country = 'USA')
GROUP BY airports.airport
ORDER BY Total_Flights DESC
LIMIT 10;

表列如下：

飞机场

|iata|airport|city|state|country|

Flights_stats

|originAirport|destAirport|FlightsNum|Cancelled|Month|

问题答案：

按机场（内部联接）过滤，并在UNION ALL之前进行聚合，以减少传递到最终聚合简化程序的数据集。具有UNION ALL的UNION
ALL子查询应该比UNION ALL之后具有更大数据集的Join并行且运行速度更快。

SELECT f.airport, SUM(cnt) AS Total_Flights
FROM (
      SELECT a.airport, COUNT(*) as cnt 
       FROM flights_stats f
            INNER JOIN airports a ON f.Origin=a.iata AND a.country='USA'
       WHERE Cancelled = 0 AND Month IN (3,4)
       GROUP BY a.airport
       UNION ALL
      SELECT a.airport, COUNT(*) as cnt
       FROM flights_stats f
            INNER JOIN airports a ON f.Dest=a.iata AND a.country='USA'
       WHERE Cancelled = 0 AND Month IN (3,4)
       GROUP BY a.airport
     ) f 
GROUP BY f.airport
ORDER BY Total_Flights DESC
LIMIT 10
;

调整mapjoin并启用并行执行：

set hive.exec.parallel=true;
set hive.auto.convert.join=true; --this enables map-join
set hive.mapjoin.smalltable.filesize=25000000; --size of table to fit in memory

使用Tez和向量化，调整映射器和化简器的并行性：https
:
//stackoverflow.com/a/48487306/2700344

类似资料：

Mysql优化：有没有办法让它更快？

更新：谢谢所有的帮助。我将总结一下答案。从@Jayde开始，他的回答成功地将结果减少到0.09秒，并且与限制中的数字成线性关系。选择*from（选择table1.id作为table1\u id，从table1中选择table1.id 在@Rick James中，他提到这可能是表2的问题。因为我的表2只有几列，所以我可以省略它，自己进行连接，即使是在客户端！所以我去掉了表2，它只有0.02s
有没有办法（一步一步）在M1 Mac上设置PyCharm？

有没有办法（一步一步）在M1 Mac上设置PyCharm？我正在寻找一些一步一步地如何克服口译员的错误。还有一个错误消息发生在我的简单Hello world打印中。 “进程结束，退出代码137（被信号9:SIGKILL中断）”
Cassandra-有没有办法限制异步查询的数量？

问题内容：我想知道是否有办法限制cassandra java驱动程序同时执行的查询数量？当前，我执行许多查询，如下所示：不幸的是，这可能导致NoHostAvailableException。谢谢。问题答案：您可以使用信号量来限制并发查询的数量：但是到最后，情况并没有太大的不同：信号量将阻塞（如果使用定时版本的Acquisition，则抛出该信号），而不是在超出容量时得到信号。因此，您
有没有办法反序列化Elasticsearch Nest搜索查询？

问题内容：在使用Nest构建我的Elasticsearch查询时，我希望能够看到发送到Elasticsearch的JSON版本。这可能吗？我想是某种解串器。这是我的后续问题的信息：问题答案：对。您可以像这样使用ElasticClient公开的序列化器：您也可以直接使用Newtonsoft或任何JSON库来序列化查询对象。不过，在ElasticClient中使用序列化器（本质上是包装New
有没有办法同步化解一个promise？（或一个可供选择的库）

我有一个用于验证字符串的方法，我希望该方法返回一个承诺，因为正在运行的验证可能是异步的。然而，我遇到的问题是性能问题，我希望在可能的情况下在相同的事件循环中解决Promission（例如：当没有异步验证要做时），但我希望接口保持一致（例如：始终返回Promission）。下面的简化代码示例说明了我正在尝试的操作，但是它会导致前面提到的性能损失，因为即使可以同步执行验证，它仍然等待下一个事件循环来
有没有办法动态查询数据库

我们想为房间数据库构建一个过滤器，过滤器选项由用户选择。 i、 e.我们有一个带有字段（id、名称、日期、类型）的实体。用户可以按日期和/或名称过滤列表，其中包含文本和/或类型等于某个值有办法在房间里做吗？

相关阅读

有没有办法创建没有初始化的原始数组？有没有办法在TypeScript中进行方法重载？有什么方法可以进一步优化Java反射方法调用？有没有办法在golang中格式化此json？有没有办法比较lambda？

相关文章

性能测试之后，发现一些性能指标有问题，应该如何进行优化？理想汽车-算法优化工程师一面 SQL优化实战：如何通过缓存给MySQL查询进行流量削峰？DP优化（一）单调队列/单调栈优化实例讲解美团运筹优化算法研发一面记录

相关问答

为什么检查没有被优化有没有办法同时检查'null'和'undefined'？有没有办法避免使用Scanner（Java）来推进一行 VS Code有没有办法缩进到开括号？有没有办法在InitState方法上加载异步数据？

相关工具

NCMusicEngine 优化 Apache Hive ensembl-hive hive-dwrf Hive Rise

相关文档

Oracle 优化教程笨办法学 Linux 笨办法学 C 笨办法学 Prolog 笨办法学 Python 3