我做了我的工作,阅读了https://spark.apache.org/docs/latest/configuration.html的文档
在spark-folder/conf/spark-env.sh中:
非常感谢。
首先,您应该知道1个Worker(可以说1台机器或1个Worker节点)可以启动多个执行器(或多个Worker实例--它们在文档中使用的术语)。
spark_worker_memory
仅在独立部署模式下使用spark_executor_memory
在纱线部署模式下使用在独立模式下,将spark_worker_memory
设置为一台机器(这台机器上的所有执行程序)上运行spark应用程序所能使用的内存总量。
Spark shell:它基本上打开了scala spark sql:它似乎直接连接到hive元存储,我们可以用类似于hive的方式编写查询。并查询配置单元中的现有数据 我想知道这两者的区别。。在spark sql中处理任何查询是否与在spark shell中相同?我的意思是,我们可以在spark sql中利用spark的性能优势吗? Spark 1.5.2在这里。
我试图优化两个spark dataframes之间的联接查询,让我们将它们称为df1、df2(在公共列“saleid”上联接)。df1非常小(5M),所以我在spark集群的节点中广播它。df2非常大(200米行),所以我尝试通过“saleid”对它进行桶/重新分区。 例如: 分区: 水桶: 我不知道哪一个是正确的技术使用。谢谢。
我只知道版本差异,但不知道功能或其他。i、 e Sparksession具有内部sparkcontext和conf。
Apache Spark中的join和cogroup有什么区别?每个方法的用例是什么?
考虑一个MySQL数据库,其中包含一个电子商务网站的1000万个产品。 我正在尝试建立一个分类模块来对产品进行分类。我正在使用Apache Sqoop将数据从MySQL导入到Hadoop。 我想使用Mahout作为机器学习框架来使用它的一种分类算法,然后我遇到了MLlib提供的Spark 那么这两个框架之间有什么区别? 主要是,每种方法的优点、缺点和局限性是什么?
我在这里浏览了文档:https://spark . Apache . org/docs/latest/API/python/py spark . SQL . html 它说: 重新分区:生成的DataFrame是哈希分区的 对于repartitionByRange:结果DataFrame是范围分区的 而且之前的一个问题也提到了。然而,我仍然不明白它们到底有什么不同,当选择一个而不是另一个时会有什么