创建Hive表以从拼花/avro模式读取拼花文件

吴经略

2023-03-14

我们正在寻找一种解决方案，以便创建一个外部配置单元表，根据parquet/avro模式从parquet文件中读取数据。

换句话说，如何从拼花/avro模式生成hive表？

谢谢:)

共有1个答案

陶福

2023-03-14

使用avro架构尝试以下操作：

CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS AVRO TBLPROPERTIES ('avro.schema.url'='myHost/myAvroSchema.avsc'); 

CREATE EXTERNAL TABLE parquet_test LIKE avro_test STORED AS PARQUET LOCATION 'hdfs://myParquetFilesPath';

在Parquet数据上使用Avro模式动态创建配置单元外部表时，提出了相同的查询

类似资料：

从分区拼花文件读取DataFrame

如何读取带有条件作为数据帧的分区镶木地板，这工作得很好，分区存在的时间为< code>day=1到day=30是否可能读取类似于< code>(day = 5到6)或< code>day=5，day=6的内容，如果我输入< code>*,它会给出所有30天的数据，而且太大了。
用PySpark读取拼花文件

则错误如下： AttributeError：“property”对象没有属性“parquet”
火花拼花器读数误差

我在一个Spark项目上工作，这里我有一个文件是在parquet格式，当我试图用java加载这个文件时，它给了我下面的错误。但是，当我用相同的路径在hive中加载相同的文件并编写查询select*from table_name时，它工作得很好，数据也很正常。关于这个问题，请帮助我。 java.io.ioException：无法读取页脚:java.lang.runtimeException：损坏的文
SparkSQL-直接读取拼花地板文件

我正在从Impala迁移到SparkSQL，使用以下代码读取一个表：我如何调用上面的SparkSQL，这样它就可以返回这样的东西：
从Pyspark中的多个目录读取拼花文件

我需要从不是父目录或子目录的多个路径读取拼花地板文件。例如，从dir1\u 1和dir1\u 2读取拼花文件现在，我正在读取每个目录并使用“unionAll”合并数据帧。有没有一种方法可以不使用unionAll从dir1\u 2和dir2\u 1读取拼花地板文件，或者有没有什么奇特的方法可以使用unionAll 谢谢
优化从s3 bucket中分区拼花文件的读取

我有一个拼花格式的大数据集（大小约1TB），分为2个层次：

创建Hive表以从拼花/avro模式读取拼花文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档