问题：

createOrReplaceTempView在Spark中是如何工作的？

习洲

2023-03-14

createorreplacetempview在Spark中是如何工作的？

如果我们注册一个rdd对象作为一个表，会将所有数据保存在内存中吗？

共有1个答案

尉迟明贤

2023-03-14

createorReplaceTempView创建（如果视图名称已经存在，则替换）一个经过缓慢计算的“视图”，然后可以像Spark SQL中的配置单元表一样使用该“视图”。除非缓存支持视图的数据集，否则它不会持久存在内存中。

scala> val s = Seq(1,2,3).toDF("num")
s: org.apache.spark.sql.DataFrame = [num: int]

scala> s.createOrReplaceTempView("nums")

scala> spark.table("nums")
res22: org.apache.spark.sql.DataFrame = [num: int]

scala> spark.table("nums").cache
res23: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [num: int]

scala> spark.table("nums").count
res24: Long = 3

只有在.count调用之后，才会完全缓存数据。这是它被缓存的证据：

相关SO：spark createOrReplaceTempView vs createGlobalTempView

类似资料：

“Exchange HashPartitioning”在spark中如何工作

目前，我使用按列重新分区和分区数将数据移动到特定分区。该列标识相应的分区（从0开始到（固定）n）。结果是Scala/Spark生成了一个意想不到的结果，并创建了更少的分区（其中一些是空的）。也许是哈希碰撞？为了解决这个问题，我试图找出原因，试图找到变通办法。我找到了一个解决办法，将dataframe转换为rdd，并将partitionBy与HashPartitioner一起使用。令我惊讶的是：我
Spark聚合函数-aggregateByKey是如何工作的？

null
隐式在Spark/Scala中如何工作[重复]

下面是一个示例火花代码，它将转换为: Scala没有方法，它来自Spark Implicits。这里的数据集是如何创建的？编辑：我确实看过其他SO答案，但没有看到一个示例，说明如何在中使用隐式。我在评论中参考了示例答案。
@BatchSize在Hibernate中是如何工作的？

我从网上和论坛上看到了关于BatchSize的相关主题，但我仍然不明白一些部分。所以让我们描述一下我理解的和不理解的。批量取数：选择取数的优化策略。Hibernate通过指定主键或外键列表，在一次选择中检索一批实体实例或集合。让我们有JPA 2.0，带有Hibernate实现。这些实体： } 因此，我懒得去了解产品中的制造商。因此，当我执行select fetching时，就完成了。所以我有很
在SpringDataJPA中FetchMode是如何工作的

我的项目中的三个模型对象（本文末尾的模型和存储库片段）之间确实存在关系。当我调用时，它会触发三个select查询：（“sql”）（对我来说）那是相当不寻常的行为。在阅读Hibernate文档后，我认为它应该始终使用连接查询。当类中的更改为时，查询没有区别（使用附加选择进行查询），当更改为时，城市类的查询也一样（使用JOIN进行查询）。当我使用抑制火灾时，有两种选择：我的目标是在所有情况下
BufferedWriter在java中是如何工作的

我经常把文本输出到文件中。我想知道：是如何工作的？当我调用时，它是否在文件上写入文本？如果它不写文本，我需要使用flush函数来写数据吗？例如：如果while循环中发生错误，文件将在不写入数据的情况下关闭。如果我在while循环中使用函数，那么为什么要使用？如果我错了，请纠正我。

createOrReplaceTempView在Spark中是如何工作的？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档