问题：

Hive：有什么方法可以自定义HiveInputFormat吗？

索嘉胜

2023-03-14

/root/20140901/part-0
/root/20140901/part-1
/root/20140901/part-2
/root/20140902/part-0
/root/20140902/part-1
/root/20140902/part-2
/root/20140903/part-0
/root/20140903/part-1
/root/20140903/part-2

在创建命令如下所示的配置单元表之后，我调用hql=[select*from hive_combine_test where rdm>50000；]，这将花费9个映射器，与HDFS中的文件数量相同。

CREATE EXTERNAL table hive_combine_test
(id string, 
rdm string)
PARTITIONED BY (dateid string)
row format delimited fields terminated by '\t'
stored as textfile;

ALTER TABLE hive_combine_test
ADD PARTITION (dateid='20140901')
location '/root/20140901';

ALTER TABLE hive_combine_test
ADD PARTITION (dateid='20140902')
location '/root/20140902';

ALTER TABLE hive_combine_test
ADD PARTITION (dateid='20140903')
location '/root/20140903';

但我想要的是把所有的部分-I在一个分裂中，这样，应该只有三个映射器。

我尝试从org.apache.hadoop.hive.ql.io.hiveInputFormat继承，以测试自定义的JudhiveInputFormat是否可以工作。

public class JudHiveInputFormat<K extends WritableComparable, V extends Writable>
                    extends HiveInputFormat<WritableComparable, Writable> {

}

但是当我将它挂载到配置单元中时，它返回异常：

hive> add jar /my_path/jud_udf.jar;
hive> set hive.input.format=com.judking.hive.inputformat.JudHiveInputFormat;
hive> select * from hive_combine_test where rdm > 50000;

java.lang.RuntimeException: com.judking.hive.inputformat.JudCombineHiveInputFormat
    at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.execute(ExecDriver.java:290)
    at org.apache.hadoop.hive.ql.exec.mr.MapRedTask.execute(MapRedTask.java:136)
    at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:153)
    at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:85)
    at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:1472)
    at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1239)
    at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1057)
    at org.apache.hadoop.hive.ql.Driver.run(Driver.java:880)
    at org.apache.hadoop.hive.ql.Driver.run(Driver.java:870)
    at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:268)
    at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:220)
    at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:423)
    at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:792)
    at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:686)
    at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:625)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:601)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:212)

有人能给我点线索吗？多谢！

共有1个答案

许琛

2023-03-14

据我所知，要在Hive中添加自定义输入/输出格式，需要在create table语句中提到该格式。像这样的事情：

CREATE TABLE (...)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT '<your input format class name >' OUTPUTFORMAT '<your output format class name>';

因为您只需要InputFormat,所以您的create table语句如下所示：

CREATE TABLE (...)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'JudHiveInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat';

为什么需要提到这个输出格式类，因为您已经覆盖了输入格式Hive也需要输出类，所以这里我们需要说Hive使用它的默认输出格式类。

类似资料：

DBUnit有什么方法可以自动创建表？

问题内容：我刚刚意识到DBUnit本身不会创建表（请参阅如何在不面对NoSuchTableException的情况下使用具有普通JDBC和HSQLDB的DBUnit进行测试？）。 DBUnit有什么方法可以根据数据集或dtd自动创建表吗？编辑：为了简单测试像HSQLDB这样的内存数据库，可以使用粗略的方法来自动创建表：问题答案：并不是的。正如您链接的答案所指出的那样，dbunit xml
有什么方法可以在API

材料设计非常强调“纸张”的隐喻。要做到这一点，阴影是必不可少的。由于材料设计是一种理念，而不是API（尽管它内置在L中），因此应该在任何地方（Windows窗体、HTML/CSS等）进行设计。如何在Android API 14到20中做到这一点？请注意，对于圆形和其他非方形形状，预制PNG实际上并不实用。
Java有什么方法可以调用私有方法吗？

问题内容：我有一个使用XML和反射将 s 返回到另一个类的类。通常，这些对象是外部对象的子字段，但有时我想即时生成它。我已经尝试过类似的方法，但无济于事。我相信这是因为Java不允许你访问进行反射的方法。如果提供的方法失败，则失败。我可以通过制作方法来解决它，或者制作另一个类来派生它。长话短说，我只是想知道是否存在一种通过反射访问方法的方法。问题答案：你可以使用反射调用私有方法。修改已
为什么我可以调用私有方法？

问题内容：我不应该能够调用实例化对象的私有方法。我想知道为什么下面的代码有效。我知道可以从类中访问私有方法。但是，如果类中的方法实例化了同一类的对象，则作用域规则是否不适用于该实例化的对象？如本例所示，像main这样的静态方法可以访问类的非静态成员吗？问题答案：您的方法是的方法，因此可以调用的私有方法。只是因为它是一个方法并不妨碍它表现得像为目的的方法，等等。只是阻止的方法等
Java：有什么方法可以指定何时抛出异常？

所以我必须做以下其中之一：在每个doSomething调用周围添加try catch块在main中添加throws语句删除doSomething中的throws语句将该条件作为前提条件，这样不遵循该条件就会导致未定义的行为或类似的行为。 3将不起作用，因为doSomething可能会在客户端使用时引发异常。1和2简直是多余的，我认为应该避免。我的问题是：在提到的选项（或任何其他选项）中，
自定义方法

本章将会讨论如何在API设计中使用自定义方法。自定义方法指的是五个标准方法之外的API方法。他们应当仅用于标准方法不易表达的功能。一般而言，API设计者应当尽可能优先考虑使用标准方法，而不是自定义方法。标准方法相对更简单，定义完善的语义，并且开发者也更加熟悉；这使标准方法更易用，并且使用者更难犯错。使用标准方法的另一个优势是API平台会有更好的支持，如计费、错误处理、日志、监控等等。自定义方法

Hive：有什么方法可以自定义HiveInputFormat吗？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档