我试图找出PySpark中的DataFrame的大小/形状。我没有看到一个函数可以做到这一点。
在Python中,我可以这样做:
data.shape()
PySpark中是否有类似的功能?这是我当前的解决方案,但我正在寻找一个元素
row_number = data.count()
column_number = len(data.dtypes)
列数的计算不理想。。。
将此添加到您的代码中:
import pyspark
def spark_shape(self):
return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape
那你可以做
>>> df.shape()
(10000, 10)
但是只要提醒你,。count()
对于尚未持久化的非常大的表,速度可能非常慢。
使用df.count()
获取行数。
您可以通过以下方式获得其形状
:
print((df.count(), len(df.columns)))
请告诉我如何在数据帧中查找列的值 在@Dadep的答案中,链接给出了正确的答案
问题内容: 我目前正在开发一个使用HTML5的localStorage的站点。我已经阅读了有关不同浏览器大小限制的所有信息。但是,关于如何找出localStorage实例的当前大小,我还没有看到任何东西。这个问题似乎表明JavaScript没有内置的方式来显示给定变量的大小。localStorage是否具有我未见过的内存大小属性?有没有一种简单的方法可以做到这一点,而我却没有呢? 我的网站旨在允许
有两个,我想删除一个。我该怎么办?
问题内容: 我正在使用 Python 和 Tkinter ,我需要知道小部件的当前尺寸(宽度,高度)。 我试过了,但是它只返回一个固定值,并且每当窗口小部件大小改变时(例如,调整窗口大小时)都不会更新。 问题答案: 使用和获取实际的窗口小部件大小,该属性只是给几何管理器的提示。
我的Spark-version=2.3.1,Scala-version-2.11.8。 产生的错误: 文件“/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第172行,加载文件“/usr/local/spark/python/lib/py4j-0.10.7-src.zip/pyspark/py4j/java_ga