当前位置: 首页 > 知识库问答 >
问题:

使用spark处理。RRD(循环数据)的库

商畅
2023-03-14

我有大量的时间序列数据,这些数据以。RRD(循环数据库)格式存储在S3中。我计划使用apache spark对此进行运行分析,以获得不同的性能矩阵。

目前,我正在从s3下载。rrd文件,并使用rrd4j库处理它。我要做更长的期限,如年或更多的处理。它涉及到处理数十万个。rrd文件。我希望spark节点直接从s3获取文件并运行分析。如何使spark使用rrd4j读取。rrd文件?有什么图书馆能帮我做到这一点吗?spark中是否支持处理这类数据?

共有1个答案

孟华晖
2023-03-14

spark部分相当简单,在sparkcontext上使用wholetextfilesbinaryfiles(参见文档)。根据文档,rrd4j通常需要一个路径来构造rrd,但是使用RRDByteArrayBackend,您可以在其中加载数据--但这可能是一个问题,因为大多数API都受到保护。您必须找到一种方法将数组[Byte]加载到RRD4J中。

 类似资料:
  • 这里是一个以圆圈为单位的交叉网格,当前为5x5。我试图得到一行5,下面是一行4,然后是3,然后是2等等。我试着改变for循环和值,但什么都不起作用。我需要使用行和列吗? 谢谢!

  • 问题内容: 您使用哪种SQL技巧将数据输入到两个表之间,并在两个表之间使用循环引用。 员工属于部门,部门必须有经理(部门负责人)。 我是否必须禁用约束才能进行插入? 问题答案: 问: 是否必须禁用约束才能进行插入? 答: 在Oracle中,否,如果外键约束为否,则为否 (请参见下面的示例) 对于Oracle: 让我们解压一下: (必须禁用自动提交) 推迟执行外键约束 在“部门”表中插入一行,并为F

  • 问题内容: 我有一个数组(称为),其中包含数百个天文学图像文件的名称。然后处理这些图像。我的代码有效,并且需要几秒钟来处理每个图像。但是,一次只能执行一张图像,因为我是通过循环运行阵列: 没有理由我必须先修改映像,因此可以利用计算机上的所有4个内核,每个内核都通过for循环在不同的映像上运行吗? 我已经阅读了有关该模块的信息,但是不确定如何在我的情况下实现它。我热衷于工作,因为最终我必须在10,0

  • 我有一个特定的要求,其中,我需要检查空的数据文件。如果为空,则填充默认值。这是我尝试过但没有得到我想要的东西。 这个想法是,如果df不是空的,就得到它。如果为空,则填写默认值为零。这似乎不起作用。以下是我得到的。 请帮忙。

  • 问题内容: 可以说我必须在for循环内使用if语句,并且for循环在特定条件下触发,而if语句仅在for循环达到特定阶段时才触发。 例如,条件是一个计数器,该计数器在发生某些事情(例如,球从屏幕上掉下来)时进行计数。每次球越过屏幕时,都会一圈绘制一个圆圈。当第一行中的圆圈到达屏幕的末端时,圆圈开始出现在第一行下方的第二行中。但是第二行对我不起作用,我已经用if语句实现了。 if语句仅在第一行的球越

  • tasksUpdate方法要怎么做处理,请求获取到的数据放在了data的dataShow数组里面了,首次dataShow没数据会报错,大哥们帮忙看看

  • 有一个名为Avro-Tools的工具,它随Avro一起提供,可以用来在JSON、Avro-Schema(.avsc)和二进制格式之间进行转换。但它不能用于循环引用。 我们有两个文件: > 循环.avsc(由Avro生成) json(由jackson生成,因为它有循环引用,Avro不喜欢这样)。 通告.AVSC circular.json 在上面运行avro-tools的命令 Java-jar av

  • 下面是我的父组件,它包含一个循环的多个输入。如何选择一个来聚焦?在这种情况下,我必须创建动态吗?