当前位置: 首页 > 知识库问答 >
问题:

hive如何从HDFS中存在的文件创建表?

栾耀
2023-03-14

我是HDFS和Hive的新手。在阅读了一些书籍和文档之后,我得到了这两个方面的一些介绍。我有一个关于在HIVE中创建一个表的问题,该表的文件存在于HDFS中。我有这个文件在HDFS中有300个字段。我想在HDFS中创建一个访问该文件的表。但我想利用这个文件中的30个字段。我的问题是1。配置单元是否创建单独的文件目录?2.我必须先创建配置单元表,然后从HDFS导入数据吗?3.既然我想创建一个300列中包含30列的表,那么hive是否只创建一个包含这30列的文件?4.我是否必须创建一个有30列的单独文件并导入到HDFS中,然后创建指向HDFS目录的配置单元表?

共有1个答案

仉洲
2023-03-14

我的问题是

  1. 配置单元是否创建单独的文件目录?如果创建配置单元表(托管/外部)并使用load命令加载数据,则可以。

如果创建外部表并指向现有文件,则为否。

 类似资料:
  • 我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我已经很好地理解了Hadoop组件,如NamedNode、DataNode、Job Tracker、Task Tracker,以及它们如何协同工作以高效的方式存储数据。 null

  • 以下是已经实现的 Kafka制作人使用Spark流媒体从推特上获取数据 Kafka消费者将数据摄取到Hive外部表(在HDFS上) 虽然到目前为止这一切都很顺利。我只面临一个问题,当我的应用程序将数据插入配置单元表时,它创建了一个小文件,每个文件的每一行都有数据。 下面是代码 配置单元演示表已填充了一条记录。Kafka consumer循环处理每一行中topic=“topic\u twitter”

  • 是否有可能从内存中(而不是磁盘上)的文件创建ZipArchive。 以下是用例:多个文件在

  • Apache Drill有一个很好的功能,可以从许多传入的数据集中制作镶木地板文件,但是似乎没有太多关于如何稍后使用这些镶木地板文件的信息 - 特别是在Hive中。 Hive有没有办法利用这些“1_0_0.parquet”等文件?也许创建一个表并从拼花文件加载数据,或者创建一个表并以某种方式将这些拼花文件放在hdfs中,以便Hive读取它?

  • 问题内容: 我想制作一个内存文件以在pygame混合器中使用。我的意思是这样的(http://www.pygame.org/docs/ref/music.html#pygame.mixer.music.load它说load()方法支持文件对象) 问题答案: 您可能正在寻找或类从Python的包装,无论是在现有的Python 2 和Python 3中 。它们提供了类似于文件的界面,您可以在代码中使用