摘要:关注与Hive中的UDF创建有关。
亲爱的朋友们,由于我是在Hive中创建UDF的新手(我通过google读过这方面的文章,但不是很清楚),我在这里的第一件事是确定哪一种可能是最好的方式,比如Java/Python或任何其他方式来编写Hive UDF。
另一件事是我应该在什么基础上分析?我应该寻找什么参数?
这个问题可能不在指导方针之内,因为你是在征求意见。
话虽如此,我建议:
A)你选择一种你懂的语言。
添加/home/cloudera/date.jar到类路径添加资源:/home/cloudera/date.jar 请有人帮帮我,因为我是新来蜂巢的。有人能告诉我要遵循的步骤吗
您的回应将不胜感激。谢了!
我找不到以上两种方式有什么不同。有人能给我解释一下或者指导我正确的材料吗?
我在java中开发了一个工作正常的配置单元udf,我的函数返回输入与配置单元表中列之间的最佳匹配,因此它有以下简化的伪代码: 我的问题是,如果这个函数是由Hive调用的,为什么我需要在代码中连接到Hive?我可以使用使用我的功能的用户所连接的当前连接吗?
我已经在hive:udfrowsequence中尝试过这个UDF。 但是它不产生唯一的值,即它依赖于映射器重复序列。 假设我有一个文件(有4条记录)在HDFS中可用。它将为该作业创建一个映射器,结果将类似于 1 2 3 4 1 2 3 4 1 2 。
我看到这样一个udf: https://github.com/edwardcapriolo/hive-geoip 如何在Hive中利用udf?我可以自己创建函数名吗?