问题：

hive如何从HDFS中存在的文件创建表？

栾耀

2023-03-14

我是HDFS和Hive的新手。在阅读了一些书籍和文档之后，我得到了这两个方面的一些介绍。我有一个关于在HIVE中创建一个表的问题，该表的文件存在于HDFS中。我有这个文件在HDFS中有300个字段。我想在HDFS中创建一个访问该文件的表。但我想利用这个文件中的30个字段。我的问题是1。配置单元是否创建单独的文件目录？2.我必须先创建配置单元表，然后从HDFS导入数据吗？3.既然我想创建一个300列中包含30列的表，那么hive是否只创建一个包含这30列的文件？4.我是否必须创建一个有30列的单独文件并导入到HDFS中，然后创建指向HDFS目录的配置单元表？

共有1个答案

仉洲

2023-03-14

我的问题是

配置单元是否创建单独的文件目录？如果创建配置单元表（托管/外部）并使用load命令加载数据，则可以。

如果创建外部表并指向现有文件，则为否。

类似资料：

Hive如何存储数据（从HDFS加载）？

我对Hadoop（HDFS和Hbase）和Hadoop生态系统(Hive、Pig、Impala等）相当陌生。我已经很好地理解了Hadoop组件，如NamedNode、DataNode、Job Tracker、Task Tracker，以及它们如何协同工作以高效的方式存储数据。 null
Hive为HDFS中的每个插入创建多个小文件

以下是已经实现的 Kafka制作人使用Spark流媒体从推特上获取数据 Kafka消费者将数据摄取到Hive外部表（在HDFS上）虽然到目前为止这一切都很顺利。我只面临一个问题，当我的应用程序将数据插入配置单元表时，它创建了一个小文件，每个文件的每一行都有数据。下面是代码配置单元演示表已填充了一条记录。Kafka consumer循环处理每一行中topic=“topic\u twitter”
从以orc格式存储在hdfs中的文件创建配置单元表

包含文本：
如何从C#内存中的文件创建ZipArchive？

是否有可能从内存中（而不是磁盘上）的文件创建ZipArchive。以下是用例：多个文件在
如何使用在 Hive 中使用 Apache Drill 创建的 Parquet 文件

Apache Drill有一个很好的功能，可以从许多传入的数据集中制作镶木地板文件，但是似乎没有太多关于如何稍后使用这些镶木地板文件的信息 - 特别是在Hive中。 Hive有没有办法利用这些“1_0_0.parquet”等文件？也许创建一个表并从拼花文件加载数据，或者创建一个表并以某种方式将这些拼花文件放在hdfs中，以便Hive读取它？
如何在内存中创建文件对象

问题内容：我想制作一个内存文件以在pygame混合器中使用。我的意思是这样的（http://www.pygame.org/docs/ref/music.html#pygame.mixer.music.load它说load（）方法支持文件对象）问题答案：您可能正在寻找或类从Python的包装，无论是在现有的Python 2 和Python 3中。它们提供了类似于文件的界面，您可以在代码中使用

hive如何从HDFS中存在的文件创建表？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档