当前位置: 首页 > 软件库 > 云计算 > >

Data Sketches

快速计算算法
授权协议 Apache
开发语言 Java
所属分类 云计算
软件类型 开源软件
地区 不详
投 递 者 娄飞鸾
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Data Sketches 是雅虎开源的超快速计算算法。

除了高速计数之外,Data Sketches 做某些类型的计算会比精确计算快很多。1亿数值计算一般情况花费 2.5 分钟,而使用 Data Sketches 只需要 2.7 秒。

Data Sketches 已经在 Yahoo 的大量产品中使用,Yahoo 自身的 Flurry 使用它来计算实时计数,雅虎邮件服务和搜索引擎也在使用。

Data Sketches 集成了 Hive 和 Pig,还有 Druid 开源数据存储,在 Maven 构建管理工具中也很容易使用。

  • DataSketches Research Directions  https://datasketches.github.io/docs/Research.html 来源与雅虎的开源项目,翻译by Titanssword 结合自己研究方向,可合并摘要,分位数, k 均值聚类的流式算法, 有关图流处理算法, 有关滑动窗口流算法 Introduction 在分析海量数据集时,即使对数据进行非常基本的

  • data-column profile 的String 类型侦测 deequ的profile 带来了一个 string 类型的字段类型侦测,以deequ的例子来说明这个特性,数据定义为: case class RawData(productName: String, totalNumber: String, status: String, valuable: String) 但输出的结果如下 Co

  • http://blog.sina.com.cn/s/indexlist_1318681703_2.html http://blog.sina.com.cn/sapinfo 学习LSMW 的一篇最好的文章。 来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/16978623/viewspace-600485/,如需转载,请注明出处,否则将追究法律责任。 转载于:htt

  • 1. 简介 目前Copter/Plane/Rover共享了以下的顶层Library设计: 1.1 Core libraries AP_AHRS - attitude estimation using DCM or EKF AP_Common - core includes required by all sketches and libraries AP_Math - various math f

 相关资料
  • 问题内容: 我正在使用NLTK在语料库中搜索n- gram,但是在某些情况下会花费很长时间。我已经注意到,计算n元语法在其他软件包中并不罕见(显然,Haystack具有某些功能)。如果我放弃NLTK,这是​​否意味着可以以更快的方式在语料库中查找n- gram?如果是这样,我可以使用什么来加快速度? 问题答案: 由于您没有指明是想要单词级还是字符级的n-gram,因此我将假设前者,而不会失去一般性

  • 主要内容:快速排序算法的实现提到排序算法,多数人最先想到的就是快速排序算法。快速排序算法是在分治算法基础上设计出来的一种排序算法,和其它排序算法相比,快速排序算法具有效率高、耗费资源少、容易实现等优点。 快速排序算法的实现思路是: 从待排序序列中任选一个元素(假设为 pivot)作为中间元素,将所有比 pivot 小的元素移动到它的左边,所有比 pivot 大的元素移动到它的右边; pivot 左右两边的子序列看作是两个待排

  • 我知道它是如何工作的,如果我不知道的话,网上有很多资料供我查阅。我在这里遇到的问题是,我找到的一些文章陈述如下(来自维基百科): 对数组重新排序,使所有值小于透视的元素都在透视之前,而所有值大于透视的元素都在透视之后(相等的值可以从任一方向移动)。分区后,枢轴处于其最终位置。这称为分区操作。 其他一些消息来源,(hackerrank视频): 第二种方法与枢轴本身无关,但它将确保所有比枢轴小的元素在

  • 问题内容: 我正在为大型视频文件创建MD5校验和。我当前正在使用代码: 但这会创建一个内存缓冲区,并且对于大型视频文件而言并不理想。Swift中是否有一种方法可以计算读取文件流的MD5校验和,从而使内存占用量最小? 问题答案: 您可以分块计算MD5校验和,例如在?中有没有一个MD5库不需要同时输入全部内容?。 这是使用Swift的可能实现(现已针对Swift 5更新) 需要自动释放池来释放所返回的

  • 问题内容: 我必须为重复对象的排列评估以下公式 其中和(总共有n个对象,其中r1类似于1种,r2类似于第二种,依此类推,该公式表示此类对象的排列数目)。 我需要一个有效的编码解决方案,因为在Java中使用大整数并不能证明在大情况下是有效的。 提前致谢。 问题答案: 您可以使用 设计来解决您的问题。 请参阅此链接以供参考 要么 像这样 : 资源

  • 本文向大家介绍java实现快速排序算法,包括了java实现快速排序算法的使用技巧和注意事项,需要的朋友参考一下 1、算法概念。 快速排序(Quicksort)是对冒泡排序的一种改进。由C. A. R. Hoare在1962年提出。 2、算法思想。 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序

  • 本文向大家介绍PHP 快速排序算法详解,包括了PHP 快速排序算法详解的使用技巧和注意事项,需要的朋友参考一下 概念 这里借用百度百科的一张图来,非常形象: 快速排序算法是对冒泡算法的一个优化。他的思想是先对数组进行分割, 把大的元素数值放到一个临时数组里,把小的元素数值放到另一个临时数组里(这个分割的点可以是数组中的任意一个元素值,一般用第一个元素,即$array[0]),然后继续把这两个临时数

  • 我正在寻找一个快速的算法: 我有一个大小为n的int数组,目标是在数组中找到所有模式, 例如,我知道有一个大小为3的int数组是,那么只有一种可能性:12=3(考虑12=21) 我正在考虑实现对和Hashmap来使算法快速。(我现在得到的最快的仍然是 请分享你对这个问题的看法,谢谢