现在,我在resultscanner
上实现行计数,如下所示
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
如果数据达到百万,时间计算是很大的。我想要实时计算,但我不想使用Mapreduce
如何快速计算行数。
在HBase中使用RowCounter RowCounter是一个mapreduce作业,用于对表的所有行进行计数。这是一个很好的实用工具,可以用作健全性检查,以确保HBase可以读取表的所有块,如果存在元数据不一致的问题。它将在一个进程中运行mapreduce all,但如果有一个mapreduce集群供它利用,它将运行得更快。
$ hbase org.apache.hadoop.hbase.mapreduce.RowCounter <tablename>
Usage: RowCounter [options]
<tablename> [
--starttime=[start]
--endtime=[end]
[--range=[startKey],[endKey]]
[<column1> <column2>...]
]
本文向大家介绍SQL Server中统计每个表行数的快速方法,包括了SQL Server中统计每个表行数的快速方法的使用技巧和注意事项,需要的朋友参考一下 我们都知道用聚合函数count()可以统计表的行数。如果需要统计数据库每个表各自的行数(DBA可能有这种需求),用count()函数就必须为每个表生成一个动态SQL语句并执行,才能得到结果。以前在互联网上看到有一种很好的解决方法,忘记出处了,写
问题内容: 我正在使用NLTK在语料库中搜索n- gram,但是在某些情况下会花费很长时间。我已经注意到,计算n元语法在其他软件包中并不罕见(显然,Haystack具有某些功能)。如果我放弃NLTK,这是否意味着可以以更快的方式在语料库中查找n- gram?如果是这样,我可以使用什么来加快速度? 问题答案: 由于您没有指明是想要单词级还是字符级的n-gram,因此我将假设前者,而不会失去一般性
如何在C#中获得性能最佳的线程安全计数器? 这很简单: 但有更快的替代方案吗?
问题内容: 我必须为重复对象的排列评估以下公式 其中和(总共有n个对象,其中r1类似于1种,r2类似于第二种,依此类推,该公式表示此类对象的排列数目)。 我需要一个有效的编码解决方案,因为在Java中使用大整数并不能证明在大情况下是有效的。 提前致谢。 问题答案: 您可以使用 设计来解决您的问题。 请参阅此链接以供参考 要么 像这样 : 资源
问题内容: 出于说明目的,假设您正在使用带有三列的简单MySQL“ books”表运行一个库: (ID,标题,状态) id 是主键 书名 是书的标题 status 可以是描述书籍当前状态的枚举(例如,Available,Checkedout,Processing,MISSING) 一个简单的查询来报告每种状态下有多少本书: 或专门查找有多少本书: 但是,一旦表增长到数百万行,这些查询将花费几秒钟来