当前位置: 首页 > 知识库问答 >
问题:

减少Spark和HBase节点之间的延迟

葛兴发
2023-03-14

我正在经历Spark节点和HBase节点之间的高延迟。我目前的资源要求我在不同的服务器上运行HBase和Spark。

谢谢

共有1个答案

壤驷安和
2023-03-14

你的想法是对的。您可以将HFiles复制到运行spark的HDFS集群(或机器)中。这将导致节省解压缩和减少通过电线的数据传输。您需要从Snappy压缩中读取HFiles,并编写一个解析器来读取。

或者,如果不需要HBase的所有数据,也可以应用Column和ColumnFamily筛选器。

 类似资料:
  • 本文向大家介绍Hive和HBase之间的区别,包括了Hive和HBase之间的区别的使用技巧和注意事项,需要的朋友参考一下 Apache Hive和HBase都是基于Hadoop的大数据技术,它们基本上具有相同的查询大数据的目的。但是,Apache Hive和HBase都在Hadoop之上运行,但它们的功能有所不同。 但是基于功能,我们可以如下区分Hive和HBase- 序号 键 蜂巢 HBase

  • 本文向大家介绍RDBMS和HBase之间的区别,包括了RDBMS和HBase之间的区别的使用技巧和注意事项,需要的朋友参考一下 RDBMS和HBase都是数据库管理系统。RDBMS使用表来表示数据及其关系。HBase是面向列的dbms,它在Hadoop分布式文件系统(HDFS)之上运行。 以下是RDBMS与HBase之间的重要区别。 序号 键 关系数据库管理系统 HBase的 1个 定义 HBas

  • 我是Hadoop的新手。我正在浏览专业Hadoop解决方案的书,以获得一些关于Hadoop和生态系统的知识。我想澄清HDFS和HBase之间的主要区别是什么。我理解的方式就像两者都是存储系统。它们的区别只是在访问数据方面。HBase通过非关系型数据库访问数据,HDFS使用计算框架(MapReduce)处理数据。如果是这种情况,为什么我们不能只有一个存储HDFS或HBase。根据需求,他们将插入和插

  • 我有一个字符串数组,通过它映射使用CheckboxListTile小部件作为标签不同的复选框,但我需要减少这些复选框之间的空间。

  • 我是hadoop的新手,我阅读了许多hadoop mapreduce和hdfs的页面,但仍然无法明确一个概念。 也许这个问题是愚蠢的或不寻常的,如果真是如此的话。我的问题是,假设我在hadoop中为一个大小为1GB的文件创建了一个单词计数程序,其中map函数将把每一行作为输入,输出作为键值对,reduce函数将输入作为键值,并简单地迭代列表,计算单词进入该文件的总次数。 现在我的问题是,因为这个文

  • 我运行jmeter脚本将近一周,今天观察到一件有趣的事情。以下是场景: 概述:我正在逐渐增加应用程序的负载。在上一次测试中,我给应用程序加载了100个用户,今天我将加载增加到150个用户。 150名用户测试结果: > 与上次测试相比,请求的响应时间减少了。(这是个好兆头) 吞吐量急剧下降到上一次测试的一半,负载更少。 我的问题是: > 当我的许多请求失败时,我得到了好的响应时间吗? 注:直到100