问题：

计算spark dataframe中所有列（300列）的每个不同值的出现次数

单于浩邈

2023-03-14

  --------------------------------------------------------
     col1    |  col2    | col3 ............col299   | col 300
  -------------------------------------------------------
  value11    | value21  | value31       | value300  | value 301
  value12    | value22  | value32       | value300  | value 301
  value11    | value22  | value33       | value301  | value 302
  value12    | value21  | value33       | value301  | value 302

import org.apache.spark.sql.functions.count
df.groupBy("col1").agg(count("col1")).show

而是如何高效地计算300列。请救命！

共有1个答案

晋功

2023-03-14

你可以像下面提到的那样很容易地做到

首先收集所有列名和转换作为键值。如下所示

val exprs=df.columns.map((_->“approx_count_distinct”））.tomap

类似资料：

如何使用Pandas计算值在每列（每列）中出现的次数？

有没有办法用熊猫来计算某个值在每一列中出现的次数？数据= pd。DataFrame({'userID':['Luis '，' Mike '，' Harvey']，' category1':[True，False，True]，' category2': [True，True，False]，' category3':[False，False，False]}) 假设我想计算每个类别中“真”布尔值的数量
分别计算每列的不同值

问题内容：我可以在不枚举的情况下计算每列的不同值吗？说我有一个表，，，并没有其他的列。在没有明确提及这些列的情况下，我希望得到与以下结果相同的结果：我怎样才能做到这一点？问题答案：我认为使用普通SQL可以轻松完成的最好工作就是运行这样的查询，以生成所需的查询，然后运行该查询。
计算DataFrame每行中Series系列项目的出现次数

问题内容：我有一个看起来像这样。对于此数据帧中的每一行，我想计算C1，C2，C3中每一个的出现次数，并将此信息作为列附加到此数据帧中。例如，第一行具有1 C1、0 C2和0 C3。最终数据帧应如下所示因此，我创建了一个以C1，C2和C3作为值的系列- 一种最重要的方法是在DataFrame的行和列上循环，然后在该Series上循环，并在计数器匹配时递增计数器。但是，有没有一种方法可以以紧凑的
C++计算每个字符出现的次数

本文向大家介绍C++计算每个字符出现的次数，包括了C++计算每个字符出现的次数的使用技巧和注意事项，需要的朋友参考一下本文实例为大家分享了C++计算每个字符出现的次数的实现代码，供大家参考，具体内容如下以上就是本文的全部内容，希望对大家的学习有所帮助。
SQL：如何获取列中每个不同值的计数？

问题内容：我有一个名为“ posts”的SQL表，如下所示：每个类别编号对应一个类别。我将如何计算每个类别在一个sql查询中全部出现在帖子中的次数？例如，这样的查询可能返回如下符号数组：我当前的方法是对每个可能的类别使用查询，例如：，然后将返回值组合到最终数组中。但是，我正在寻找一种仅使用一个查询的解决方案。问题答案：
为数据框中的每一行和特定列计算列表中的出现次数

我一直在尝试使用Python3.7中的或来执行类似下面的df的操作，但没有成功。到目前为止，这是我想要得到的一个例子：然后，我需要为每个对应行获取中的最大值，如果有平局，则只在新列中显示平局的键。大概是这样的：

计算spark dataframe中所有列（300列）的每个不同值的出现次数

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档