当前位置：首页 > 专题 >

《hive》专题

Hadoop Hive无法将源移动到目标
问题内容：我正在尝试在Hadoop 2.6.0上使用Hive 1.2.0。我已经创建了一张桌子。但是，当我运行以下查询时：我收到以下错误：我在这里做什么错？我需要设置任何特定的权限吗？提前致谢！问题答案：正如Rio提到的那样，该问题涉及缺少将数据加载到配置单元表中的权限。我发现以下命令可以解决我的问题：
Hive中Sortby和orderby查询之间的区别
问题内容：请任何人告诉我Hive SQL和查询之间的区别问题答案： Hive支持SORT BY，可对每个reducer的数据进行排序。“ order by”和“ sort by”之间的区别在于，前者保证输出中的总顺序，而后者仅保证精简器中行的排序。如果存在多个减速器，则“排序依据”可能会给出部分排序的最终结果。注意：关于单个列的单独SORT BY与CLUSTER BY之间的区别可能会造成混淆
如何使用Hive在数分钟内获得日期差异
问题内容：下面的查询是我的SQL Server查询，我希望它将其转换为Hive查询：问题答案：您可以使用以下日期作为日期：将两个日期都转换为秒减去它们除以60得到分钟编辑：添加分钟：使用MySQL的db <> fiddle演示
Hive表在所有查询上返回空结果集
问题内容：我创建了一个Hive表，该表从文本文件加载数据。但是它对所有查询返回的空结果集。我尝试了以下命令：命令被执行，并且表被创建。但是，对于所有查询，始终返回0行，包括样本数据：单行输入数据： 1 | 155190 | 7706 | 1 | 17 | 21168.23 | 0.04 | 0.02 | N | O | 1996-03-13 | 1996-02-12 | 1996-03-
Hive-有没有办法进一步优化HiveQL查询？
问题内容：我写了一个查询来查找3月至4月美国10个最繁忙的机场。它产生所需的输出，但是我想尝试进一步优化它。是否有任何适用于查询的HiveQL特定优化？是适用在这里吗？我是Hive的新手，现在这是我提出的最短的查询。表列如下：飞机场 Flights_stats 问题答案：按机场（内部联接）过滤，并在UNION ALL之前进行聚合，以减少传递到最终聚合简化程序的数据集。具有UNION A
Hive对同一表中其他数组列的排序数组列
问题内容：我在蜂巢中有一张桌子，两列分别为和。输出如下图我想按升序对该col2进行排序，并且col1还应相应地更改其索引，例如问题答案：分解两个数组，进行排序，然后再次聚合数组。在子查询中使用之前对数组进行排序：结果：编辑：同一脚本的简化版本，您可以不用第二次posexplode，而是按位置使用直接引用
在SQLClient中访问Hive表，但不能从Putty访问
问题内容：我是Hive，MapReduce和Hadoop的新手。我正在使用Putty连接到配置单元表并访问表中的记录。因此，我要做的是- 打开Putty并输入主机名-然后单击。然后我输入了用户名和密码，然后输入了一些命令来访问Hive sql。以下是我的工作清单所以我的问题是还有其他方法可以在任何Sql客户端（例如Sql Developer或Squirel SQL Client）中执行相同的
是否可以更改Hive中分区表上的列的元数据？
问题内容：这是我之前提出的问题的扩展：是否可以更改HIVE中的分区元数据？我们正在探索更改表上元数据的想法，而不是对SELECT语句中的数据执行CAST操作。更改MySQL Metastore中的元数据非常容易。但是，是否有可能将元数据更改应用于分区表（每天）上的列？注意：该列本身不是分区列。这是一个简单的ID字段，正在从STRING更改为BIGINT。否则，当历史记录为STRING时，我们
临时加入Hive查询（时间紧迫的事件）
问题内容：我有一个蜂巢查询，我很难弄清楚。我有一个类似的时间序列：我需要一个查询，以便如果其中一个记录满足特定条件，则除了该记录外，它还应从第二个满足一组不同条件的时间上及时返回一个或多个记录。到目前为止，我的尝试看起来像这样：哪个应该返回上面示例数据中的第一条记录和第二条记录（它不应该返回第三条记录，因为时间要比.001秒远）。但是查询不起作用。错误消息是问题答案：这将是一个
使用HiveQL爆炸结构数组
问题内容：下面是表2中的数据我可以使用以下查询来爆炸以上数据，并且对于以上数据也可以正常工作- 这样我会得到很好的输出但是在某些情况下，我在下表中有这样的数据，对于相同的product_id- 我需要使用HiveQL查询为上述数据输出类似的结果- 这有可能做到这一点吗？任何建议将不胜感激。 PS我几天前问这个问题，但是在这种情况下，数据是不同的，现在数据完全不同了，我需要类似的输出。问题
Hive SQL中的嵌套查询
问题内容：我有一个数据库，并且使用查询来生成一个中间表，如下所示：我想为a <avg（a）的用户计算b的标准偏差我以这种方式计算avg（a），并且效果很好：但是查询：返回一个错误，更准确地说，我被告知无法识别avg中的“ a”（选择a from …）。这使我感到非常困惑，因为它可以在上一个查询中使用。如果有人可以帮助我，我将不胜感激。编辑：我将查询结果存储到临时表中以生成中间表，但
Hiveserver2无法在beeline中打开新会话
如何修复错误并连接到jdbc:hive2:/localhost:10000？谢谢！
如何在将小文件写入hive orc表的同时合并spark中的小文件
我正在从s3读取csv文件，并以ORC的身份写入配置单元表。在写的同时，它也在写大量的小文件。我需要合并所有这些文件。我设置了以下属性: 除了这些配置之外，我尝试了repartition(1)和coalesce(1)，这将合并到单个文件中，但它会删除配置单元表并重新创建它。如果我使用追加模式而不是覆盖模式，它会在每个分区下创建重复文件。在这两种情况下，spark作业运行两次，在第二次执行时失败
如何提高HIVE中数据从非分区表加载到ORC分区表的性能
谢谢，马亨德
如何使用EMR上的HiveQL将DynamoDB上的Map数据类型列导出到具有JSON数据类型的S3？
在DynamoDB上有映射数据类型的记录，我想在EMR上使用HiveQL以JSON数据格式将这些记录导出到S3。这个怎么做？有可能吗？我读了下面的文件，但我想要的信息是什么。 DynamoDB数据格式文档：https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/DataFormat.html 用于导出的配置单元命令示例。。

首页

1

2

3

4

5

6

7

8

9

尾页

最新发布

B站-产品运营（会员）实习面经网易-内容运营（游戏社区产品）实习面经滴滴数据研发日常实习凉经【秋招吐槽】柠檬微趣逆天智力题莉莉丝大数据测试实习生一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

node.js - execa的子进程如何与父进程通信？前端 - 把别人的后端接口数据导入到自己新的接口项目，接口请求后为什么不管点击哪个模块都会跳转到同一个页面?python - 为什么我的 Squid 代理服务器的 ecs 没有开放 3128 端口，但是还是有很多ip访问请求？网络 - 我要如何确定是ISP封了我的端口/协议？element-ui - ElementPlus的ElMenuItem的选中状态怎么修改？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

printFinal Checked C XHRefreshControl holer libPapyrus acfilter blockchain_golang Firebird

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读