当前位置: 首页 > 面试题库 >

海量数据分布在100台电脑中,想个办法高效统计出这批数据的top10?

曾嘉福
2023-03-14
本文向大家介绍海量数据分布在100台电脑中,想个办法高效统计出这批数据的top10?相关面试题,主要包含被问及海量数据分布在100台电脑中,想个办法高效统计出这批数据的top10?时的应答技巧和注意事项,需要的朋友参考一下

这种就分为两种情况:

情况1:

  若没有重复的数据分布在不同的100台电脑中,则对每一台电脑中的数据,进行堆排序,找到top10的结果,再将100台的top10的数据进行建堆再进行堆排

情况2:

 若有重复的数据分布在不同电脑中,那么对所有的数据进行映射到不同文件中,确保相同数据在同一个文件中,然后进行hashmap,堆排序再堆排序
 类似资料:
  • 我通过从Jmeter发送请求来强调容器,然后通过docker stats命令监视容器的cpu使用情况,该命令给出的值大于100%。 我不明白为什么即使只给容器分配一个核心,它也会给出超过100%的!。你知道原因吗?这个cpu值是否表示除了容器之外的某些系统进程的cpu使用情况? 提前感谢你的帮助。 docker信息结果:集装箱:2运行:1暂停:0停止:1图像:10服务器版本:17.06.0-CE存

  • 我想发布消息到一个发布/子主题与一些属性感谢数据流作业在批处理模式。 它与@ankur解决方案一起工作:https://stackoverflow.com/a/55824287/9455637 但我认为使用共享的pub/sub客户端会更有效:https://stackoverflow.com/a/55833997/9455637 但是发生了一个错误: null

  • 我有大量的数据( 另外,是否是合适的数据结构?或者另一种数据结构会提供更好的复杂性 注意:我不能使用,因为如果使用,也可能存在重复项。查找中值将增加复杂性,因为我将从开始到中间循环以获取其值。

  • 获取小程序概况趋势: $app->data_cube->summaryTrend('20170313', '20170313') 开始日期与结束日期的格式为 yyyymmdd。 API summaryTrend(string $from, string $to); 概况趋势 dailyVisitTrend(string $from, string $to); 访问日趋势 weeklyVisitT

  • 通过数据接口,开发者可以获取与公众平台官网统计模块类似但更灵活的数据,还可根据需要进行高级处理。 {info} 接口侧的公众号数据的数据库中仅存储了 2014年12月1日之后的数据,将查询不到在此之前的日期,即使有查到,也是不可信的脏数据; 请开发者在调用接口获取数据后,将数据保存在自身数据库中,即加快下次用户的访问速度,也降低了微信侧接口调用的不必要损耗。 额外注意,获取图文群发每日数据接口的结

  • 我的数据库中有大约1000万个blob格式的文件,我需要转换并以pdf格式保存它们。每个文件大小约为0.5-10mb,组合文件大小约为20 TB。我正在尝试使用spring批处理实现该功能。然而,我的问题是,当我运行批处理时,服务器内存是否可以容纳那么多的数据?我正在尝试使用基于块的处理和线程池任务执行器。请建议运行作业的最佳方法是否可以在更短的时间内处理如此多的数据