当前位置: 首页 > 知识库问答 >
问题:

spark shell和spark sql有什么区别?有什么性能差异吗?

东门彬
2023-03-14

Spark shell:它基本上打开了scala

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

spark sql:它似乎直接连接到hive元存储,我们可以用类似于hive的方式编写查询。并查询配置单元中的现有数据

我想知道这两者的区别。。在spark sql中处理任何查询是否与在spark shell中相同?我的意思是,我们可以在spark sql中利用spark的性能优势吗?

Spark 1.5.2在这里。

共有1个答案

袁霍英
2023-03-14

spark shell为您提供了一个工作的spark环境,Scala是(编程)语言。

SparkSQL环境中,SQL是查询语言。

请注意,spack-shell适用于Spark中可用的任何API,而spack-sql仅适用于SparkSQLAPI(带Datasets和DataFrames)。

对于具有不同技能的用户来说,它们只是不同的界面(spark shell对于spark/Scala开发人员,而spark sql对于sql开发人员)。

spark sql“隐藏”了sql接口背后的spark基础设施,这使其在工程技能方面更高,但最终使用了spark sql(以及一般的spark)中提供的所有优化。

性能方面的spark sqlspark shell是相似的。

 类似资料:
  • 问题内容: 两者都意味着空间,但是有什么区别吗? 问题答案: 一个是不间断空间,另一个是常规空间。不间断的空格表示该行不应在该点处换行,就像它不会在一个单词的中间换行一样。 此外,正如斯文德(Svend)在其评论中指出的那样,不间断的空间不会崩溃。

  • 本文向大家介绍<%# %> 和 <% %> 有什么区别?相关面试题,主要包含被问及<%# %> 和 <% %> 有什么区别?时的应答技巧和注意事项,需要的朋友参考一下 答:<%# %>表示绑定的数据源 <%%>是服务器端代码块  

  • 问题内容: 以下代码之间有什么区别: 和 Python建议采用一种做事方式,但有时似乎不止一种。 问题答案: 一个是函数调用,一个是文字: 使用第二种形式。它更具Python风格,并且可能更快(因为它不涉及加载和调用单独的函数)。

  • 发展至今(2020 年 6 月份),GCC 编译器已经更新至 10.1.0 版本,其功能也由最初仅能编译 C 语言,扩增至可以编译多种编程语言,其中就包括 C++ 。 除此之外,当下的 GCC 编译器还支持编译 Go、Objective-C,Objective-C ++,Fortran,Ada,D 和 BRIG(HSAIL)等程序,甚至于 GCC 6 以及之前的版本还支持编译 Java 程序。但本

  • 本文向大家介绍队列和栈是什么?有什么区别?相关面试题,主要包含被问及队列和栈是什么?有什么区别?时的应答技巧和注意事项,需要的朋友参考一下 队列和栈都是被用来预存储数据的。 队列允许先进先出检索元素,但也有例外的情况,Deque 接口允许从两端检索元素。 栈和队列很相似,但它运行对元素进行后进先出进行检索。

  • 问题内容: 比较PMD和CheckStyle有一个问题。但是,我找不到关于PMD和FindBugs之间差异/相似性的详尽分类。我相信一个关键的区别是PMD适用于源代码,而FindBugs适用于编译的字节码文件。但是就功能而言,这应该是一个选择,还是两者相辅相成? 问题答案: 我同时使用。我认为他们是相辅相成的。 正如您所说,PMD在源代码上工作,因此会发现诸如以下问题:违反命名约定,缺少花括号,放