当前位置：首页 > 面试题库 >

如何使用Spark DataFrame在Cassandra表上计算摘要统计信息？

习高格

2023-03-14

问题内容：

我正在尝试获取一些Cassandra / SPARK数据的最小，最大平均值，但我需要使用JAVA进行。

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table",  "someTable")
        .option("keyspace", "someKeyspace")
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

编辑以显示工作版本： 确保在“ someTable”和“ someKeyspace”周围添加“

问题答案：

只需将您的数据导入为DataFrame并应用所需的汇总即可：

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table", someTable)
        .option("keyspace", someKeyspace)
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

where someTable和someKeyspace分别存储表名和键空间。

类似资料：

spark中字符串类型的摘要统计信息

火花中有没有像“R”中那样的总结函数。 spark（MultivariateStatisticalSummary）附带的摘要计算仅对数字类型进行操作。我对获取字符串类型的结果很感兴趣，比如前四个最大占用字符串（groupby类型的操作）、unique数等。有没有预先存在的代码？如果不是，请建议处理字符串类型的最佳方法。
使用条件SQL每月统计摘要记录

问题内容：我有一张表，我们称它们为桌子我需要每月的记录并更新为table ，这是我的意思是一个示例输出：在数据类型列IS 到目前为止，这是我尝试过的：该查询仅在每个员工和每个月显示一次。问题答案：尝试以下
如何将摘要统计信息保存到R中的数据框中？

本文向大家介绍如何将摘要统计信息保存到R中的数据框中？，包括了如何将摘要统计信息保存到R中的数据框中？的使用技巧和注意事项，需要的朋友参考一下当我们找到数据帧的摘要统计信息时，输出将作为表返回，并且每一列都记录了最小，第一四分位数，中位数，中位数，第三四分位数和最大值及其名称。如果我们要将此摘要另存为数据框，则最好使用apply函数对其进行计算并将其存储为data.frame。示例请看以下数
如何用numpy计算统计量“ t检验”

问题内容：我正在寻找有关我在python中创建的模型的一些统计信息。我想对此进行t检验，但想知道是否有简单的方法可以使用numpy / scipy进行此操作。周围有什么好的解释吗？例如，我有三个相关的数据集，如下所示：现在，我想对他们进行学生的t检验。问题答案：在scipy.stats包中，几乎没有函数。从这里查看示例：
statistics — 统计计算

平均值 # statistics_mean.py from statistics import * data = [1, 2, 2, 5, 10, 12] print('{:0.2f}'.format(mean(data))) # statistics_mode.py from statistics import * data = [1, 2, 2, 5, 10, 12] print(m
统计信息

V2Ray 提供了一些关于其运行状况的统计信息。 StatsObject StatsObject 对应配置文件中的stats项。 { } 目前统计信息没有任何参数，只要StatsObject项存在，内部的统计即会开启。同时你还需要在 Policy 中开启对应的项，才可以统计对应的数据。目前已有的统计信息如下：用户数据 user>>>[email]>>>traffic>>>uplink 特定用

相关阅读

想要使用Redis作为事件统计信息存储使用Solr Facet统计信息时如何进行分页？MongoDB 中聚合统计计算--$SUM表达式如何使用TSQL在varchar中计算varchar Java计算String的SHA-1摘要的十六进制表示形式

相关文章

JasperReports 创建统计图表计算信号量的问题计算信号量的问题网易-算法-8.20笔试统计字节算法岗10.9笔试统计

相关问答

如何在MySQL 8中永久禁用列统计信息？如何在Spring Boot中访问JMS统计信息？ANYLOGIC中统计信息如何使软件包在计算机上可见我如何使用groupBy统计事件？

相关工具

Axiom计算机代数系统在线名片设计系统 Flurry统计数据ANE 计算机进化简易计算器

相关文档

百度统计分析云使用手册统计学习方法 Python 科学计算百度统计 API 手册 51LA 统计帮助文档