问题：

如何计算spark scala中的数据帧大小

龙浩博

2023-03-14

我想编写一个具有重分区的大型数据帧，所以我想计算源数据帧的重分区数。

数据帧/default_blocksize的大小

所以请告诉我如何在spark scala中计算数据帧的大小

提前谢谢。

共有1个答案

翁和正

2023-03-14

使用spark.sessionState.execute计划（df.queryExecution.logical）。优化Plan.stats（spark.sessionState.conf）。sizeInBytes我们可以得到实际数据帧的大小，一旦它加载到内存中，例如，您可以检查下面的代码。

scala> val df = spark.read.format("orc").load("/tmp/srinivas/")
df: org.apache.spark.sql.DataFrame = [channelGrouping: string, clientId: string ... 75 more fields]

scala> import org.apache.commons.io.FileUtils
import org.apache.commons.io.FileUtils

scala> val bytes = spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats(spark.sessionState.conf).sizeInBytes
bytes: BigInt = 763275709

scala> FileUtils.byteCountToDisplaySize(bytes.toLong)
res5: String = 727 MB

scala> import sys.process._
import sys.process._

scala> "hdfs dfs -ls -h /tmp/srinivas/".!
Found 2 items
-rw-r-----   3 svcmxns hdfs          0 2020-04-20 01:46 /tmp/srinivas/_SUCCESS
-rw-r-----   3 svcmxns hdfs    727.4 M 2020-04-20 01:46 /tmp/srinivas/part-00000-9d0b72ea-f617-4092-ae27-d36400c17917-c000.snappy.orc
res6: Int = 0


val bytes = spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats(spark.sessionState.conf).sizeInBytes
    val dataSize = bytes.toLong
    val numPartitions = (bytes.toLong./(1024.0)./(1024.0)./(10240)).ceil.toInt // May be you can change or modify this to get required partitions.

    df.repartition(if(numPartitions == 0) 1 else numPartitions)
      .[...]

编辑-1：请根据您的火花版本使用以下逻辑。

火花2.4

val bytes = spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats(spark.sessionState.conf).sizeInBytes

火花2.3

val bytes = spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats.sizeInBytes

对于Python

spark._jsparkSession.sessionState().executePlan(df._jdf.queryExecution().logical()).optimizedPlan().stats().sizeInBytes()

类似资料：

如何计算pandas数据帧中列中的NaN值

我想在数据的每一列中找到的数量，这样，如果某一列的少于某个阈值，我就可以删除该列。我看了一下，但没有找到任何功能。对我来说太慢了，因为大多数值都是不同的，而且我只对计数感兴趣。
如何计算数据帧中每列的唯一性？

下面有一段代码，它创建了数据框中每列中缺失值的汇总表。我希望我可以构建一个类似的表来计算唯一的值，但是DataFrame没有唯一的（）方法，只有每一列是独立的。（资料来源：https://stackoverflow.com/a/39734251/7044473）如何为唯一值实现相同的功能？
如何计算硒页面中的帧数？

本文向大家介绍如何计算硒页面中的帧数？，包括了如何计算硒页面中的帧数？的使用技巧和注意事项，需要的朋友参考一下我们可以通过下面列出的方法计算硒中的帧数- 借助具有标签名frame / iframe的List <WebElement>。借助Javascript执行器。示例带标记名。示例使用Javascript执行器。
如何计算数据帧中不同于一列的行数？

我知道这不是一个人应该在这里做的事情，尽管我不知道否则我怎么能问这个问题。我的目标是统计有多少行具有相同的第一预测值（购买、维护等），但评级不同。我的尝试是通过第一列来计算，然后计算我得到的不同评分，这将是非常棒的。一个重要的假设是，如果两行相同，则它们已被预先擦除。因此，可以找到不同等级的行，但没有相同的行。在我的示例中，第1行和第3行是相同的，因此其中一行被擦除，没有问题。然而，对于其
如何从pyspark数据帧中计算所有列的最小和最大频率？

我有一个pyspark数据框，在这里我可以找到每列的最小/最大值和最小/最大值计数。我可以使用：我希望在同一数据帧中也有最小/最大值的计数。我需要的具体输出： …|col|n|col|m| …|xn | xm |。。。最小值（col（coln））计数（col_n==xn）|计数（col_m==xm）|。。。
pandas python如何计算数据帧中的记录数或行数

对熊猫来说显然是新鲜事物。如何简单地计算数据帧中的记录数。我本以为像这样简单的东西就能做到，但我似乎甚至在搜索中都找不到答案...可能是因为它太简单了。上面的代码实际上只是打印整个df

如何计算spark scala中的数据帧大小

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档