问题：

Hive与Spark在执行上的差异

白镜

2023-03-14

大家：我在找一个有更多知识的人来检查我对蜂巢和火花的理解

我一直在研究不同的大型数据库解决方案，并试图理解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我无法让Hive去工作。

共有1个答案

侯兴为

2023-03-14

Tez上的Hive和Spark都使用Ram（内存）对数据进行操作。计算的分区数量将被视为单独的任务，这将与Tez上的Hive vs Spark大不相同。默认情况下，Tez上的Hive尝试使用组合器将某些拆分合并到单个分区中。Hive one Tez似乎比spark更好地处理集群的自动伸缩，并且大部分时间都能工作。spark不能使用自动伸缩，它会有很多洗牌错误，当有多个阶段时会失败。但是给定固定大小的集群，Spark在TEZ上似乎比Hive表现得更好，这可以归因于所做的一些优化，以及如何实现洗牌、序列化等。

类似资料：

Apache Spark：核心与执行器

Apache Spark：核心数与执行器数由于每个案例都不一样，我又问了一个类似的问题。我正在运行一个cpu密集型的应用程序，具有相同数量的核心和不同的执行器。以下是观察结果。更新案例3：执行器-12个，每个执行器的核心数-1个，执行器内存-3个，数据处理量-10 GB,分区-36个，作业持续时间：81分钟
Spark Hive上下文-带分区的Avro表

对于分区的Avro配置单元表，在Avro模式中具有大写字符的字段名将被拉回为空。我想知道我是否缺少一些设置/解决方法，或者这只是一个配置单元上下文的错误。我已经尝试过将以下内容添加到DDL中： …并设置spark.sql。区分大小写，对真/假敏感 Spark版本1.5.0 Hive版本1.1.0 您可以通过在 Hive 中运行以下 DDL 来重新创建问题： ...
执行器上的cancel（）与remove（）

最近，我使用了ThreadPoolExecutor和priorityqueue，并在将来遇到了这两种方法。对未来任务执行cancel（）。和任务。remove（），将其从队列中移除。更好的选择是什么？有什么区别吗？我可以保存两者的列表（从submit（）接收的未来对象或任务本身），不确定要使用什么。。。移除: 取消：我使用了以下方法：http://docs.oracle.com/javase
如何在Spark 1.3的Hive上指示SparkSQL中的数据库
在SQL中计算增量（当前行与上一行的差）

问题内容：我有一个像这样的表：例如，trans是表的名称而且我必须更新Delta列。假设每月有一笔交易，则该值是同一帐户的当前行与同一帐户的先前行之差。这是一个可以生成增量值的虚拟sql 该查询的结果是但是没有任何前一行的行的增量应该是其数量，例如这些都是顺便说了。请帮助我解决此查询。问题答案：这是您对原始查询进行的相应修改：月比较从移动到，这使得一个差，并且被替换为。脚本的版
Apache Spark在一个执行器上运行一个任务

我有一个spark作业，它从数据库中读取数据，执行过滤、联合、2连接，最后将结果写回数据库。然而，最后一个阶段仅在50个执行器中的一个执行器上运行一个任务。我试图增加分区的数量，使用哈希分区，但没有成功。经过几个小时的谷歌搜索，似乎我的数据可能会但我不知道如何解决它。有什么建议吗？规格: < li >独立群集 < li>120核心 < li>400G内存遗嘱执行人： 30个执行器（4

Hive与Spark在执行上的差异

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档