当前位置：首页 > 软件库 > 大数据 > 数据处理 >

Apache DataSketches

开源的高性能大数据流算法库

授权协议 Apache-2.0

开发语言 Java

所属分类大数据、数据处理

软件类型开源软件

地区不详

投递者劳英华

操作系统跨平台

开源组织 Apache

适用人群未知

软件概览

Apache DataSketches 是开源的高性能大数据流算法库，主要针对大规模计算环境。Apache DataSketches 的专用流算法库（也被称为 sketches）包含小型数据结构，并可大规模处理数据。对于那些想要生成精确结果，但又无法承受大量时间和计算资源消耗的查询，sketches 是一个理想的选择。而对于那些能够接受近似结果的客户，sketches 也是附带实时分析交互式查询的唯一可行选择。

特性：

快速：sketches 算法可一次处理适用于实时和批处理的数据。围绕 sketches 设计系统可以简化系统的体系结构，并减少所需的总体计算资源。
大数据：该库专门为必须处理海量数据的生产系统而设计的。该库包括适用于 Apache Hive、Apache Pig 和PostgreSQL（C ++）。具有跨语言（Java，C ++，Python）和平台的特性。
分析：内置的 Theta Sketch 集运算符（Union，Intersection，Difference）生成 sketches，从而启用基数的完整集表达式，例如（A∪B）∩（C∪D）\（ E∪F）。这种功能以及可预测的准确性为快速查询提供了前所未有的分析能力。

使用案例

雅虎开源可以提升流操作速度的DataSketches

就像在Venture Beat上所宣布的那样，雅虎开源了DataSketches，这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作，像计算变量不同的值在流中出现的次数，而且消耗的时间少，占用的内存小，误差可预测。\\ 正如他们在技术博客上所作的说明，雅虎内部已经使用DataSketches来提升多个产品的性能，包括Flurry。Sketch是DataSk
Apache Druid 解析ORC及parquet格式的数据

Apache Druid可以从本地或者HDFS批量摄取数据，现在最新版本（0.18）也支持直接解析ORC及parquet格式的数据，但是要使用这个功能还需要进行简单的配置。官方文档说明 Apache Druid打包了所有的核心扩展（参考本文附件），您可以通过将需要的扩展名添加到common.runtime.properties中的druid.extensions.loadList。例如，要加载p

Apache DataSketches

特性：

同类工具

相关阅读

相关文章

相关问答

相关文档