当前位置: 首页 > 知识库问答 >
问题:

在PySpark中按降序排序

严瀚昂
2023-03-14

我正在使用PySpark(Python 2.7.9/Spark 1.3.1),并有一个需要过滤的dataframe GroupObject

group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False)

但它会抛出以下错误。

sort() got an unexpected keyword argument 'ascending'

共有3个答案

姜德容
2023-03-14

到目前为止,最方便的方法是使用:

df.orderBy(df.column_name.desc())

不需要特殊进口。

裴成文
2023-03-14

使用排序依据:

df.orderBy('column_name', ascending=False)

完整答案:

group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

http://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html

孟新知
2023-03-14

在PySpark 1.3排序方法不采用升序参数。您可以使用desc方法代替:

from pyspark.sql.functions import col

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(col("count").desc()))

或描述功能:

from pyspark.sql.functions import desc

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(desc("count"))

这两种方法都可以与Spark一起使用

 类似资料:
  • 我正在使用pyspark(Python 2.7.9/Spark 1.3.1),并且有一个需要过滤的dataframe GroupObject 但它抛出了以下错误。

  • 我有一个HashMap与作为关键和一个值作为价值。 我的目标是通过降序值对Hashmap进行排序。应在

  • 我们必须按降序对数组进行部分排序。 我知道d::partial_sort但它是按升序排列的。 http://en.cppreference.com/w/cpp/algorithm/partial_sort. 是他们的任何其他这样的功能,可以这样做,或任何快速算法这样做。

  • 问题内容: 如何在如下所示的SQLAlchemy查询中使用ORDER BY ? 此查询有效,但以升序返回: 如果我尝试: 然后我得到:。 问题答案: 来自@ jpmc26的用法

  • 我尝试了,但它是按升序排序的。也按升序排序。我查看了stackoverflow,发现的答案都是过时的或引用了RDDS。我想在Spark中使用原生的dataframe。

  • 问题内容: 以下代码将按 升序 对数组进行排序: 我需要 按降序 排序。如何使用比较器执行此操作? 请帮忙。 问题答案: 对于原始数组类型,您必须编写一个反向排序算法: 或者,您可以将转换为并编写比较器: 或使用,因为它仅适用于非原始数组类型。 最后,