当前位置: 首页 > 软件库 > 大数据 > 数据处理 >

Apache DataSketches

开源的高性能大数据流算法库
授权协议 Apache-2.0
开发语言 Java
所属分类 大数据、 数据处理
软件类型 开源软件
地区 不详
投 递 者 劳英华
操作系统 跨平台
开源组织 Apache
适用人群 未知
 软件概览

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构,并可大规模处理数据。对于那些想要生成精确结果,但又无法承受大量时间和计算资源消耗的查询,sketches 是一个理想的选择。而对于那些能够接受近似结果的客户,sketches 也是附带实时分析交互式查询的唯一可行选择。

特性:

  • 快速:sketches 算法可一次处理适用于实时和批处理的数据。围绕 sketches 设计系统可以简化系统的体系结构,并减少所需的总体计算资源。
  • 大数据:该库专门为必须处理海量数据的生产系统而设计的。该库包括适用于 Apache Hive、Apache Pig 和PostgreSQL(C ++)。具有跨语言(Java,C ++,Python)和平台的特性。
  • 分析:内置的 Theta Sketch 集运算符(Union,Intersection,Difference)生成 sketches,从而启用基数的完整集表达式,例如(A∪B)∩(C∪D)\( E∪F)。这种功能以及可预测的准确性为快速查询提供了前所未有的分析能力。
  • 就像在Venture Beat上所宣布的那样,雅虎开源了DataSketches,这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测。\\ 正如他们在技术博客上所作的说明,雅虎内部已经使用DataSketches来提升多个产品的性能,包括Flurry。Sketch是DataSk

  • Apache Druid可以从本地或者HDFS批量摄取数据,现在最新版本(0.18)也支持直接解析ORC及parquet格式的数据,但是要使用这个功能还需要进行简单的配置。 官方文档说明 Apache Druid打包了所有的核心扩展(参考本文附件),您可以通过将需要的扩展名添加到common.runtime.properties中的druid.extensions.loadList。例如,要加载p

 相关资料
  • 我正在使用ignite2.6,其中有数据流节点,从kafka消耗数据并放入Ignite缓存。服务器平均负载较高,吞吐量降低。 我已经尝试为缓存中定义的索引内联设置索引大小,这样可以提供良好的性能,但也增加了服务器内存利用率和较高的平均负载。请说明在这种情况下增加datastreamer线程池大小会产生什么影响。

  • 问题内容: 我需要一些想法来实现Java的(真正)高性能内存数据库/存储机制。在存储20,000+个Java对象的范围内,每5秒钟左右更新一次。 我愿意接受的一些选择: 纯JDBC /数据库组合 JDO JPA / ORM /数据库组合 对象数据库 其他存储机制 我最好的选择是什么?你有什么经验? 编辑:我还需要能够查询这些对象 问题答案: 您可以尝试使用Prevayler之类的工具(基本上是一个

  • 9.7 一面 60分钟 1.实习项目介绍 2.实习相关问题 3.stl问题 4.c++11 内容 5.浮点数的表示方式 剩下记不得了 算法题: 1.相交链表找交点 2.两个字符串找最长相同连续子串 3.矩阵最长递增路径 反问 #寒武纪##寒武纪校招##C++工程师##C/C++##面经#

  • 问题内容: 我在公司中多次设计数据库。为了提高数据库的性能,我只寻找标准化和索引。 如果要求您提高数据库的性能,该数据库包含大约250个表以及一些具有数百万个记录的表,那么您将寻找什么不同的东西? 提前致谢。 问题答案: 优化逻辑设计 逻辑级别是关于查询和表本身的结构。首先尝试最大程度地发挥这一作用。目标是在逻辑级别上访问尽可能少的数据。 拥有最高效的SQL查询 设计支持应用程序需求的逻辑架构(例

  • #24届软开秋招面试经验大赏# 投递岗位:高性能算法工程师 笔试时间 showmebug平台 100min 笔试题型:2个编程,2个问题 1、手写C++ string类,编程 2、二分查找,编程 3、对cache的理解,问答 4、数据结构顺序存储和链式存储的优缺点,问答 感觉难度还可以,就是showmebug这个平台用不惯,不太会用

  • 有没有朋友这个岗开奖的?是不是压根没hc#华为##华为数字能源##华为开奖#

  • 主要内容:1.开源OLAP综述,2.开源数仓解决方案1.开源OLAP综述 如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。 在云资源层,主要有E

  • 👥面试题目 一面 项目 cuda详细说(好久了有的忘记了说的磕磕巴巴的) 然后 讲了实习的东西 感觉和他们目前的业务比较match 基础问题 c加加和cuda的基础问题 一个膨胀卷积实现的手撕 呃问我怎么优化 没回答出来 给我讲解了我还是没明白 笑死 面试官无语 反问 两轮技术面 技术业务偏向移动端硬件优化这边 面试官比较友好 亲切 没开摄像头 希望可以进二面 跪求