问题：

更新配置单元UDF的jar

姬天宇

2023-03-14

TL；DR：我如何在Hive中更新自定义UDF的jar？

我写了自己的（通用）udf，工作得很好。我可以定义一个新函数，并将其与命令一起使用：

null

Localizing resource because it does not exist: file:/tmp/8f45f1b7-2850-4fdc-b07e-0b53b3ddf5de_resources/myfunc.jar to dest: hdfs://ip-10-0-10-129.eu-west-1.
compute.internal:8020/tmp/hive/hive/_tez_session_dir/994ad52c-4b38-4ee2-92e9-67076afbbf10/myfunc.jar
tez.DagUtils (DagUtils.java:localizeResource(961)) - Looks like another thread is writing the same file will wait.
tez.DagUtils (DagUtils.java:localizeResource(968)) - Number of wait attempts: 5. Wait interval: 5000
tez.DagUtils (DagUtils.java:localizeResource(984)) - Could not find the jar that was being uploaded

null

INFO  : converting to local hdfs:///hive-udf-wp/hive-udf-wp.jar
INFO  : Added [/tmp/19e0c9fc-9c7c-4de5-a034-ced062f87f64_resources/hive-udf-wp.jar] to class path
INFO  : Added resources: [hdfs:///hive-udf-wp/hive-udf-wp.jar]

共有1个答案

刘瀚

2023-03-14

我所知道的处理此问题的唯一方法是重新启动配置单元。
（我仍在寻找更新UDF的好方法。）

类似资料：

使用配置单元表的配置单元UDF

我在java中开发了一个工作正常的配置单元udf，我的函数返回输入与配置单元表中列之间的最佳匹配，因此它有以下简化的伪代码：我的问题是，如果这个函数是由Hive调用的，为什么我需要在代码中连接到Hive？我可以使用使用我的功能的用户所连接的当前连接吗？
创建配置单元UDF

添加/home/cloudera/date.jar到类路径添加资源：/home/cloudera/date.jar 请有人帮帮我，因为我是新来蜂巢的。有人能告诉我要遵循的步骤吗
实现配置单元UDF

我看到这样一个udf： https://github.com/edwardcapriolo/hive-geoip 如何在Hive中利用udf？我可以自己创建函数名吗？
配置单元中的序号UDF

我已经在hive：udfrowsequence中尝试过这个UDF。但是它不产生唯一的值，即它依赖于映射器重复序列。假设我有一个文件（有4条记录）在HDFS中可用。它将为该作业创建一个映射器，结果将类似于 1 2 3 4 1 2 3 4 1 2 。
配置单元UDF全局变量

null 我将把所有三个文件转换成标准格式（文件1格式--一个有4列的输出）。要转换为标准格式，我需要引用文件第一行中的头记录。因此，如果我的输入文件是256MB，并且调用了多个映射器，是否有任何方法使每个映射器可以引用一个全局变量（头信息）。简而言之，是否有一种方法为所有调用我的配置单元UDF的映射器提供一个公共变量？注意：UDF将在单个列表上运行，读取完整的行，然后将其写入下一个表HDFS
配置单元UDF性能太慢

我在Select query where条件下执行了带有自定义配置单元UDF函数的配置单元SQL脚本，它已经运行了两天多。我想知道这里到底有什么问题？调用java需要很多时间，还是查询执行本身需要很多时间？我的数据集如下，A表有200万条记录，B表有100万条记录，

更新配置单元UDF的jar

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档