当前位置: 首页 > 知识库问答 >
问题:

如何在PySpark中找到DataFrame的大小或形状?

苏野
2023-03-14

我试图找出PySpark中的DataFrame的大小/形状。我没有看到一个函数可以做到这一点。

在Python中,我可以这样做:

data.shape()

PySpark中是否有类似的功能?这是我当前的解决方案,但我正在寻找一个元素

row_number = data.count()
column_number = len(data.dtypes)

列数的计算不理想。。。

共有3个答案

皇甫树
2023-03-14

将此添加到您的代码中:

import pyspark
def spark_shape(self):
    return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape

那你可以做

>>> df.shape()
(10000, 10)

但是只要提醒你,。count()对于尚未持久化的非常大的表,速度可能非常慢。

仲孙阳
2023-03-14

使用df.count()获取行数。

赵钊
2023-03-14

您可以通过以下方式获得其形状

print((df.count(), len(df.columns)))
 类似资料:
  • 请告诉我如何在数据帧中查找列的值 在@Dadep的答案中,链接给出了正确的答案

  • 问题内容: 我目前正在开发一个使用HTML5的localStorage的站点。我已经阅读了有关不同浏览器大小限制的所有信息。但是,关于如何找出localStorage实例的当前大小,我还没有看到任何东西。这个问题似乎表明JavaScript没有内置的方式来显示给定变量的大小。localStorage是否具有我未见过的内存大小属性?有没有一种简单的方法可以做到这一点,而我却没有呢? 我的网站旨在允许

  • 有两个,我想删除一个。我该怎么办?

  • 问题内容: 我正在使用 Python 和 Tkinter ,我需要知道小部件的当前尺寸(宽度,高度)。 我试过了,但是它只返回一个固定值,并且每当窗口小部件大小改变时(例如,调整窗口大小时)都不会更新。 问题答案: 使用和获取实际的窗口小部件大小,该属性只是给几何管理器的提示。

  • 我的Spark-version=2.3.1,Scala-version-2.11.8。 产生的错误: 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第172行,加载文件“/usr/local/spark/python/lib/py4j-0.10.7-src.zip/pyspark/py4j/java_ga