当前位置：首页 > 知识库问答 >

问题：

如何在Scala Spark中对RDD进行排序？

郭阳曜

2023-03-14

阅读Spark method sortByKey：

sortByKey([ascending], [numTasks])   When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the boolean ascending argument.

是否可能只返回“N”个数量的结果。因此，与其返回所有结果，不如返回前10名。我可以将已排序的集合转换为数组，并使用take方法，但既然这是一个O（N）操作，有没有更有效的方法？

共有3个答案

欧阳声

2023-03-14

另一个选项（至少来自PySpark 1.2.0）是使用takeOrdered。

按升序排列：

rdd.takeOrdered(10)

按降序排列：

rdd.takeOrdered(10, lambda x: -x)

k、v对的最大k值：

rdd.takeOrdered(10, lambda (k, v): -v)

扶绍辉

2023-03-14

很可能您已经仔细阅读了源代码：

  class OrderedRDDFunctions {
   // <snip>
  def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.size): RDD[P] = {
    val part = new RangePartitioner(numPartitions, self, ascending)
    val shuffled = new ShuffledRDD[K, V, P](self, part)
    shuffled.mapPartitions(iter => {
      val buf = iter.toArray
      if (ascending) {
        buf.sortWith((x, y) => x._1 < y._1).iterator
      } else {
        buf.sortWith((x, y) => x._1 > y._1).iterator
      }
    }, preservesPartitioning = true)
  }

正如您所说，整个数据必须经过洗牌阶段——如片段中所示。

然而，您对随后调用take（K）的担心可能并不那么准确。此操作不会在所有N项中循环：

  /**
   * Take the first num elements of the RDD. It works by first scanning one partition, and use the
   * results from that partition to estimate the number of additional partitions needed to satisfy
   * the limit.
   */
  def take(num: Int): Array[T] = {

这样看来：

O（myRdd.take（K））

相诚

2023-03-14

如果你只需要前10名，可以使用rdd。前（10）。它避免了排序，因此速度更快。

rdd。top对数据进行一次并行传递，收集堆中每个分区的前N个，然后合并堆。这是一个O（rdd.count）操作。排序将是O（rdd.count log rdd.count），并且会导致大量数据传输-

类似资料：

如何在Java中对ArrayList进行排序

问题内容：我有一堂水果课。我正在创建此类的列表，并将每个水果添加到列表中。我想根据水果名称的顺序对该列表进行排序。我正在使用for循环创建它的列表我需要使用列表中每个对象的水果名称对该arrayList进行排序问题答案：使用这样的：现在，你的水果清单将基于进行排序。
如何在Java中对HashMap进行排序

问题内容：我们如何排序？我想根据中的值进行排序。问题答案：你是否必须使用HashMap？如果只需要Map Interface，请使用TreeMap 如果要通过比较HashMap中的值进行排序。你必须编写代码才能执行此操作，如果要执行此操作，则可以对HashMap的值进行排序：如果你想经常访问此排序列表，则可以将元素插入到中，尽管集合和列表的语义有些不同。
如何在Android中对JSONArray进行排序

问题内容：如何在Android上按标签名称的升序和降序对JSONArray进行排序。在我的应用程序中，我有一个类似于以下内容的JSON，需要根据用户选项显示数据（按user_id标记按升序或降序排序）。我已将JSON解析如下：这是我的JSON响应：解析时，我需要按“ user_id”标签名称排序的“结果” JSON数组，如何在Android中做到这一点？问题答案：这段代码可以返回排序后
如何在Java中对ResultSet进行排序？

问题内容：我不能在数据库中执行ORDER BY 问题答案：将数据从ResultSet中移到所需的任何对象表示形式中，然后对数据进行排序，就像此时的其他任何数据一样。如果您使用Collections.Sort对复杂对象进行排序，则需要实现Comparator。
如何在JAVA中对JSONArray进行排序

问题内容：如何按对象的字段对对象的JSONArray排序？输入：所需的输出（按“名称”字段排序）：问题答案：试试这个：排序后的JSONArray现在存储在对象中。
如何在java中对arraylist进行排序

基本上可以通过以下方式进行排序： collections.sort（列表）；这里的问题是，一旦我添加了traders arraylist中的所有值，我需要排序并显示为输出。我尝试使用collections.sort（），但它显示编译器异常。

相关问答

如何在android中对RecyclerView项目进行排序如何在java中对JSON数组进行排序如何在Java中对对象的属性进行排序如何在Swift[duplicate]中对对象数组进行排序如何在JavaFX中对任务进行排队？

相关文章

如何在Java中对JSON对象进行排序？如何在PowerShell中对输出进行排序？如何在Java中对属性进行排序？如何在Java中对对象数组进行排序？如何在Java中对Map的键进行排序？

相关阅读

招聘话务是如何进行面试 RDD持久化 Spark Core-Spark-rdd MySQL对查询结果排序 RDD共享变量

相关工具

利用CoreImage进行人脸识别利用plist进行多语言切换利用Audio Unit类进行播放声音进阶2048 进度条

相关文档

Python 进行机器学习 W3C 中文排版需求利用 Python 进行数据分析 · 第 2 版十大经典排序算法 IPC 进程间通信中文文档