我正在蜂箱中执行以下命令:
Select child.data_volume_gprs_dl + child.data_volume_gprs_ul as data_usage,
parent.file_name,
parent.record_number
from table1 as parent
left join table2 child
on parent.file_name = child.file_name
and parent.record_number = child.record_number
where parent.served_imsi like '310120%'
or parent.served_imsi like '312530%'
and parent.serving_node_plmn_id like '310260%'
and parent.date_part = 20191201
group by parent.file_name, parent.record_number
错误:编译语句时出错:FAILED:SemanticExctive[Error 10025]:第1:7行表达式不在GROUP BY键data_volume_gprs_dl(state=42000, code=10025)
为什么我会犯这个错误?
所有非聚合列都应该在GROUP BY
列表中,例如
group by parent.file_name, parent.record_number,
child.data_volume_gprs_dl, child.data_volume_gprs_ul
如果您需要按家长分组。文件名和父文件名。只记录_number
列,然后可以对其余列应用聚合(sum()
,avg()
,count()
)函数。甚至可以添加sum(child.data\u volume\u gprs\u dl child.data\u volume\u gprs\u ul)
。
我有一个用java编写的Hive UDF,我正在尝试在pyspark 2.0.0中使用它。下面是步骤1。将jar文件复制到EMR 2。像下面这样开始pyspark作业 3.使用下面的代码访问UDF 我得到以下错误: py4j。协议Py4JJavaError:调用o43时出错。sql:JAVAlang.NoSuchMethodError:org。阿帕奇。hadoop。蜂箱conf.HiveConf。
蜂巢平台(OpenComb Platform)是一个基于 PHP 5.3 实现的深度云计算应用框架。蜂巢采用了扩展模式,系统中的功能和特性,都由扩展提供。 因此,用户可以通过开发和安装扩展来部署各种类型的互联网应用。
我正在执行一个HQL查询,该查询几乎没有连接、联合和插入覆盖操作,如果只运行一次,它就可以正常工作。 如果我第二次执行相同的作业,我就会面临这个问题。有人能帮我确定在哪种情况下我们会得到这个异常吗?
我正在尝试使用Hive Java API更新Hive表分区。 如有任何帮助,不胜感激。 谢谢。
我正在尝试连接到R中的hive。我已经在我的R环境中加载了RJDBC和rJava库。我使用的是一台Linux服务器,hadoop(hortonworks sandbox 2.1)和R(3.1.1)安装在同一个盒子中。这是我用来连接的脚本: 我得到了这个错误: 错误。jcall(drv@jdrv,“Ljava/sql/Connection;”,“连接”,如图所示。字符(url)[1],:java。l