当前位置: 首页 > 面试题库 >

如何使用Spark DataFrame在Cassandra表上计算摘要统计信息?

习高格
2023-03-14
问题内容

我正在尝试获取一些Cassandra / SPARK数据的最小,最大平均值,但我需要使用JAVA进行。

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table",  "someTable")
        .option("keyspace", "someKeyspace")
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

编辑以显示工作版本: 确保在“ someTable”和“ someKeyspace”周围添加“


问题答案:

只需将您的数据导入为DataFrame并应用所需的汇总即可:

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table", someTable)
        .option("keyspace", someKeyspace)
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

where someTablesomeKeyspace分别存储表名和键空间。



 类似资料:
  • 火花中有没有像“R”中那样的总结函数。 spark(MultivariateStatisticalSummary)附带的摘要计算仅对数字类型进行操作。 我对获取字符串类型的结果很感兴趣,比如前四个最大占用字符串(groupby类型的操作)、unique数等。 有没有预先存在的代码? 如果不是,请建议处理字符串类型的最佳方法。

  • 问题内容: 我有一张表,我们称它们为桌子 我需要每月的记录并更新为table ,这是我的意思是一个示例输出: 在数据类型列IS 到目前为止,这是我尝试过的: 该查询仅在每个员工和每个月显示一次。 问题答案: 尝试以下

  • 本文向大家介绍如何将摘要统计信息保存到R中的数据框中?,包括了如何将摘要统计信息保存到R中的数据框中?的使用技巧和注意事项,需要的朋友参考一下 当我们找到数据帧的摘要统计信息时,输出将作为表返回,并且每一列都记录了最小,第一四分位数,中位数,中位数,第三四分位数和最大值及其名称。如果我们要将此摘要另存为数据框,则最好使用apply函数对其进行计算并将其存储为data.frame。 示例 请看以下数

  • 问题内容: 我正在寻找有关我在python中创建的模型的一些统计信息。我想对此进行t检验,但想知道是否有简单的方法可以使用numpy / scipy进行此操作。周围有什么好的解释吗? 例如,我有三个相关的数据集,如下所示: 现在,我想对他们进行学生的t检验。 问题答案: 在scipy.stats包中,几乎没有函数。从这里查看示例:

  • 平均值 # statistics_mean.py from statistics import * data = [1, 2, 2, 5, 10, 12] print('{:0.2f}'.format(mean(data))) # statistics_mode.py from statistics import * data = [1, 2, 2, 5, 10, 12] print(m

  • V2Ray 提供了一些关于其运行状况的统计信息。 StatsObject StatsObject 对应配置文件中的stats项。 { } 目前统计信息没有任何参数,只要StatsObject项存在,内部的统计即会开启。同时你还需要在 Policy 中开启对应的项,才可以统计对应的数据。 目前已有的统计信息如下: 用户数据 user>>>[email]>>>traffic>>>uplink 特定用