当前位置：首页 > 软件库 > 大数据 > 其他 >

Apache Fluo

大规模数据集增量处理系统

授权协议 Apache

开发语言 Java

所属分类大数据、其他

软件类型开源软件

地区不详

投递者吴高远

操作系统跨平台

开源组织 Apache

适用人群未知

软件概览

Apache Fluo 是 Google Percolator（搜索索引）的开源实现，允许用户对存储在 Apache Accumulo 中的大型数据集进行增量更新，而无需重新处理所有的数据。与批处理和流处理框架不同的是，Fluo 提供了更低的延迟，并且可以在极大的数据集上运行。

在将新数据与现有数据相结合时，与批处理框架（例如 Spark，MapReduce）相比，Fluo 可明显减少延迟。其增量更新是使用事务实现的，允许数千个更新同时发生而不会破坏数据。

Fluo 已于 2017 年 7 月孵化成功，毕业成为 Apache 顶级项目。

相关资料

大数据处理 - Hive中处理大量数据频繁变动的增量更新策略？

hive怎么进行增量更新呢？看到很多人是先分区例如根据create_time分区。每天根据create_time 新增数据。但是如果我的数据是会经常变动的呢？例如去年的数据，今年修改了。我应该如何更新这条数据进去。假设我现在数据是上亿的，应该怎么处理。假设数据初始数据： 1 2024-08-10 15:18:00.000 wang 2 2024-08-10 15:18:00.000 xxx 3
在Spark中处理大量数据框/数据集/RDD

好吧，我对使用Scala/Spark还比较陌生，我想知道是否有一种设计模式可以在流媒体应用程序中使用大量数据帧（几个100k）？在我的示例中，我有一个SparkStreaming应用程序，其消息负载类似于：因此，当用户id为123的消息传入时，我需要使用特定于相关用户的SparkSQL拉入一些外部数据，并将其本地缓存，然后执行一些额外的计算，然后将新数据持久保存到数据库中。然后对流外传入的每条
Java处理大量数据

问题内容：我有一个Java应用程序，它需要显示大量数据（大约一百万个数据点）。数据并不需要全部同时显示，而仅在用户请求时才显示。该应用程序是桌面应用程序，未与应用程序服务器一起运行或未与任何集中式数据库连接。我的想法是在计算机上运行数据库并在其中加载数据。在大多数时候，数据库都是只读的，因此我应该能够建立索引以帮助优化查询。如果我在本地系统上运行，则不确定是否应该尝试实现一些缓存（我不确定查询
大数据增量PCA

问题内容：我只是尝试使用sklearn.decomposition中的IncrementalPCA，但它像以前的PCA和RandomizedPCA一样引发了MemoryError。我的问题是，我要加载的矩阵太大，无法放入RAM。现在，它以形状〜（1000000，1000）的数据集形式存储在hdf5数据库中，因此我有1.000.000.000 float32值。我以为IncrementalPCA可
如何用H2O处理大数据集

我正在尝试用H2O（3.14）训练机器学习模型。我的数据集大小是4Gb，我的计算机RAM是2Gb，带有2G交换，JDK 1.8。参考本文，H2O可以使用2Gb RAM处理大型数据集。关于大数据和GC的说明：当Java堆太满时，我们会进行用户模式的磁盘交换，即，您使用的大数据比物理DRAM多。我们不会因GC死亡螺旋而死亡，但我们会降级到核心外的速度。我们将以磁盘允许的速度运行。我个人测试过将12G
插入sql数据库时处理大量数据

问题内容：在我的代码中，用户可以上传一个excel文档，希望其中包含电话联系人列表。作为开发人员，我应阅读excel文件，将其转换为dataTable并将其插入数据库。问题是某些客户拥有大量的联系人，例如说5000个和更多的联系人，而当我尝试将这种数据量插入数据库时，它崩溃了，并给了我一个超时异常。避免这种异常的最佳方法是什么？它们的任何代码都可以减少insert语句的时间，从而使用户不必等
大数据多处理

问题内容：我用来并行化一些繁重的计算。目标函数返回大量数据（庞大的列表）。我的RAM用完了。如果不使用，我只需将生成的元素依次计算出来，就将目标函数更改为生成器。我了解多处理不支持生成器- 它等待整个输出并立即返回，对吗？没有屈服。有没有一种方法可以使工作人员在数据可用时立即产生数据，而无需在RAM中构造整个结果数组？简单的例子：这是Python 2.7。问题答案：这听起来像是队列
6. 大规模计算的策略: 更大量的数据

校验者: @文谊翻译者: @ゞFingヤ对于一些应用程序，需要被处理的样本数量,特征数量（或两者）和/或速度这些对传统的方法而言非常具有挑战性。在这些情况下，scikit-learn 有许多你值得考虑的选项可以使你的系统规模化。 6.1. 使用外核学习实例进行拓展外核（或者称作 “外部存储器”）学习是一种用于学习那些无法装进计算机主存储（RAM）的数据的技术。这里描述了一种为了实现这一目的

同类工具

YourHDFS Scribe BigCore Jupyter Notebook SpinalTap Apache AsterixDB Astro Spark SQL MLF

相关阅读

处理器核心数量与线程池大小的关系 C：处理大量数字时避免溢出使用mysql处理非常大的数据大数据集的TFIDF c# 预处理识别硬币的数据集

相关文章

JDBC批量处理关于大规模分布式系统的容错架构的设计大数据技术十大核心原理大数据生态圈的理解汇量科技大数据2023-02-07

相关问答

弹性搜索河无法处理大量数据 scala数据集的批处理 Spark如何处理大于集群内存的数据处理大量Post变量ASP.NET python - psycopg2处理大数据量SQL在execute(sql)卡死？

相关文档

蓝天数据采集发布系统怎样优化 Pentium 系列处理器的代码大数据实验手册大数据入门指南大数据学习指南