当前位置: 首页 > 知识库问答 >
问题:

Hive如何存储数据(从HDFS加载)?

仲孙阳
2023-03-14

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我已经很好地理解了Hadoop组件,如NamedNode、DataNode、Job Tracker、Task Tracker,以及它们如何协同工作以高效的方式存储数据。

    null

共有1个答案

祝俊
2023-03-14

创建托管表将在配置单元仓库目录(通常位于/user/Hive/warehouse/dbname/tableName)中创建一个与表名同名的目录。此外,表结构(配置单元元数据)将在metastore(rdbms/hcat)中创建。

在将数据加载到表上之前,此目录(与配置单元仓库下的表名同名)是空的。

有两种可能的情况。

注意:除非数据仅由配置单元使用,否则创建外部表总是可取的。删除托管表将从HDFS(Harehouse of HIVE)中删除数据

哈杜奥普吉格

 类似资料:
  • 我是HDFS和Hive的新手。在阅读了一些书籍和文档之后,我得到了这两个方面的一些介绍。我有一个关于在HIVE中创建一个表的问题,该表的文件存在于HDFS中。我有这个文件在HDFS中有300个字段。我想在HDFS中创建一个访问该文件的表。但我想利用这个文件中的30个字段。我的问题是1。配置单元是否创建单独的文件目录?2.我必须先创建配置单元表,然后从HDFS导入数据吗?3.既然我想创建一个300列

  • 我一直在关注这篇关于如何用Hive分析twitter数据的文章:http://blog . cloud era . com/blog/2012/11/analyzing-Twitter-data-with-Hadoop-part-3-query-semi-structured-data-with-Hive/ 我设置了水槽来收集twitter数据并写入HDFS。我已经设置了一个指向同一HDFS位置的

  • 我需要将存在于Web链接上的数据上传到hdfs,例如“博客”。 现在,我正在寻找实现这一目标的选项,可以找到以下链接: http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/ 但是通过水槽文档阅读,我不清楚如何设置水槽源来指向博客内容所在的网站。 根据我对 fluem 文档的理解,需要有网络服务器

  • 当我将hbase-site.xml中的hbase.rootdir配置设置为本地文件系统(如file:/hbase_root_dir_path)时,hbase工作正常,但当我将其更改为hdfs:/localhost:9000/hbase时,hbase开始时也正常。但过了一小段时间(通常是几秒钟),它就不起作用了。我发现HMaster用jps命令停止了。当然,我无法打开localhost:60010网

  • {“type”:“record”、“name”:“twitter_schema”、“namespace”:“com.miguno.avro”、“fields”:[{“name”:“username”、“type”:“string”、“doc”:“Twitter.com上的用户帐户名称”}、{“name”:“tweet”、“type”:“string”、“doc”:“用户的Twitter消息内容”}

  • 我在我的JavaEE7应用程序中使用spring-data-neo4j(独立)作为漂亮的neo4j-OGM。 目前,我正在尝试通过@Autowired将spring-data-neo4j存储库集成到我的项目中。 我已经开始编写一些JUnit测试,这些测试是测试本身使用这个存储库的bean。目前一切正常。 现在,我想将这个新的存储库类集成到我的JavaEE7应用程序中,我正在将其部署到wildfly