问题内容: 我正在尝试在Hadoop 2.6.0上使用Hive 1.2.0。我已经创建了一张桌子。但是,当我运行以下查询时: 我收到以下错误: 我在这里做什么错?我需要设置任何特定的权限吗?提前致谢! 问题答案: 正如Rio提到的那样,该问题涉及缺少将数据加载到配置单元表中的权限。我发现以下命令可以解决我的问题:
问题内容: 请任何人告诉我Hive SQL和查询之间的区别 问题答案: Hive支持SORT BY,可对每个reducer的数据进行排序。“ order by”和“ sort by”之间的区别在于,前者保证输出中的总顺序,而后者仅保证精简器中行的排序。如果存在多个减速器,则“排序依据”可能会给出部分排序的最终结果。 注意:关于单个列的单独SORT BY与CLUSTER BY之间的区别可能会造成混淆
问题内容: 下面的查询是我的SQL Server查询,我希望它将其转换为Hive查询: 问题答案: 您可以使用以下日期作为日期: 将两个日期都转换为秒 减去它们 除以60得到分钟 编辑: 添加分钟: 使用MySQL的db <> fiddle演示
问题内容: 我创建了一个Hive表,该表从文本文件加载数据。但是它对所有查询返回的空结果集。 我尝试了以下命令: 命令被执行,并且表被创建。但是,对于所有查询,始终返回0行,包括 样本数据: 单行输入数据: 1 | 155190 | 7706 | 1 | 17 | 21168.23 | 0.04 | 0.02 | N | O | 1996-03-13 | 1996-02-12 | 1996-03-
问题内容: 我写了一个查询来查找3月至4月美国10个最繁忙的机场。它产生所需的输出,但是我想尝试进一步优化它。 是否有任何适用于查询的HiveQL特定优化? 是适用在这里吗?我是Hive的新手,现在这是我提出的最短的查询。 表列如下: 飞机场 Flights_stats 问题答案: 按机场(内部联接)过滤,并在UNION ALL之前进行聚合,以减少传递到最终聚合简化程序的数据集。具有UNION A
问题内容: 我在蜂巢中有一张桌子,两列分别为和。输出如下图 我想按升序对该col2进行排序,并且col1还应相应地更改其索引,例如 问题答案: 分解两个数组,进行排序,然后再次聚合数组。在子查询中使用之前对数组进行排序: 结果: 编辑:同一脚本的简化版本,您可以不用第二次posexplode,而是按位置使用直接引用
问题内容: 我是Hive,MapReduce和Hadoop的新手。我正在使用Putty连接到配置单元表并访问表中的记录。因此,我要做的是- 打开Putty并输入主机名-然后单击。然后我输入了用户名和密码,然后输入了一些命令来访问Hive sql。以下是我的工作清单 所以我的问题是 还有其他方法可以在任何Sql客户端(例如Sql Developer或Squirel SQL Client)中执行相同的
问题内容: 这是我之前提出的问题的扩展:是否可以更改HIVE中的分区元数据? 我们正在探索更改表上元数据的想法,而不是对SELECT语句中的数据执行CAST操作。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区表(每天)上的列?注意:该列本身不是分区列。这是一个简单的ID字段,正在从STRING更改为BIGINT。 否则,当历史记录为STRING时,我们
问题内容: 我有一个蜂巢查询,我很难弄清楚。 我有一个类似的时间序列: 我需要一个查询,以便如果其中一个记录满足特定条件,则除了该记录外,它还应从第二个满足一组不同条件的 时间上及时 返回一个或多个记录。 到目前为止,我的尝试看起来像这样: 哪个应该返回上面示例数据中的第一条记录和第二条记录(它不应该返回第三条记录,因为时间要比.001秒远)。 但是查询不起作用。错误消息是 问题答案: 这将是一个
问题内容: 下面是表2中的数据 我可以使用以下查询来爆炸以上数据,并且对于以上数据也可以正常工作- 这样我会得到很好的输出 但是在某些情况下,我在下表中有这样的数据,对于相同的product_id- 我需要使用HiveQL查询为上述数据输出类似的结果- 这有可能做到这一点吗? 任何建议将不胜感激。 PS我几天前问这个问题,但是在这种情况下,数据是不同的,现在数据完全不同了,我需要类似的输出。 问题
问题内容: 我有一个数据库,并且使用查询来生成一个中间表,如下所示: 我想为a <avg(a)的用户计算b的标准偏差 我以这种方式计算avg(a),并且效果很好: 但是查询: 返回一个错误,更准确地说,我被告知无法识别avg中的“ a”(选择a from …)。这使我感到非常困惑,因为它可以在上一个查询中使用。 如果有人可以帮助我,我将不胜感激。 编辑: 我将查询结果存储到临时表中以生成中间表,但
如何修复错误并连接到jdbc:hive2:/localhost:10000? 谢谢!
我正在从s3读取csv文件,并以ORC的身份写入配置单元表。在写的同时,它也在写大量的小文件。我需要合并所有这些文件。我设置了以下属性: 除了这些配置之外,我尝试了repartition(1)和coalesce(1),这将合并到单个文件中,但它会删除配置单元表并重新创建它。 如果我使用追加模式而不是覆盖模式,它会在每个分区下创建重复文件。 在这两种情况下,spark作业运行两次,在第二次执行时失败
谢谢,马亨德
在DynamoDB上有映射数据类型的记录,我想在EMR上使用HiveQL以JSON数据格式将这些记录导出到S3。这个怎么做?有可能吗? 我读了下面的文件,但我想要的信息是什么。 DynamoDB数据格式文档:https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/DataFormat.html 用于导出的配置单元命令示例。。