当前位置: 首页 > 面试题库 >

给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?

高砚
2023-03-14
本文向大家介绍给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?相关面试题,主要包含被问及给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?时的应答技巧和注意事项,需要的朋友参考一下

这种找相同数据的步骤:

由于单文件总量为5G*64=320G,无法一次读入内存,同样将a文件hash函数读入1000个文件中,每个大小为300M左右,同样将b文件也是以相同的hash函数读入另外的1000个文件,这样就就形成了1000对文件,每一对文件才有可能存在相同的url,将a的映射文件hashmap,然后遍历对应的本对中b的映射文件,若在a的hashmap中存在,则为相同url,这样统计下来

 类似资料:
  • 本文向大家介绍有两个磁盘文件A和B, 各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列),输出到一个新文件C 中。相关面试题,主要包含被问及有两个磁盘文件A和B, 各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列),输出到一个新文件C 中。时的应答技巧和注意事项,需要的朋友参考一下 【参考答案】  

  • 问题内容: 我尝试了一些代码,使用XOR在Java中交换两个整数而不使用第三个变量。 这是我尝试的两个交换函数: 这段代码产生的输出是这样的: 我很好奇,为什么这样说: 与这个不同吗? 问题答案: 问题是评估的顺序: 参见JLS第15.26.2节 首先,对左操作数求值以产生一个变量。 如果该评估突然完成,则赋值表达式由于相同的原因而突然完成;右边的操作数不会被评估,并且不会发生赋值。 否则,将保存

  • 我尝试了一些代码在Java中交换两个整数,而不使用第三个变量,即使用XOR。 以下是我尝试的两个交换函数: 该代码产生的输出如下: 我很想知道,为什么会有这样的说法: 和这个不一样?

  • 问题内容: 今天,我发现了python语言一个有趣的“功能”,这让我感到非常悲伤。 那个怎么样?我以为两者是等同的!更糟糕的是,这是我调试时遇到的麻烦的代码 WTF!我的代码中包含列表和字典,并且想知道我到底怎么把dict的键附加到列表上而又没有调用.keys()。事实证明,这就是方法。 我认为这两个陈述是等效的。即使忽略这一点,我也可以理解将字符串追加到列表的方式(因为字符串只是字符数组),但是

  • 本文向大家介绍给两个构造函数A和B,如何实现A继承B?相关面试题,主要包含被问及给两个构造函数A和B,如何实现A继承B?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: // 再在A的构造函数里new B(props);  

  • 问题内容: 这是我的第一个问题,我开始学习Python。之间有什么区别: 和 在下面的示例中编写时,它显示不同的结果。 和 问题答案: 在中,在将右侧的表达式赋给左侧之前对其求值。因此,它等效于: 在第二个示例中,运行时已更改的值。因此,结果是不同的。