当前位置: 首页 > 面试题库 >

共享内存与消息传递如何处理大型数据结构?

邴英毅
2023-03-14
问题内容

在查看Go和Erlang的并发方法时,我注意到它们都依赖于消息传递。

由于没有共享状态,因此这种方法显然可以减轻对复杂锁的需求。

但是,请考虑许多客户想要并行只读访问内存中单个大数据结构(例如后缀数组)的情况。

我的问题:

  • 与消息传递相比,使用共享状态是否会更快,并且使用的内存更少,因为由于数据是只读的,并且只需要存在于单个位置,因此锁通常是不必要的?

  • 在消息传递上下文中如何解决此问题?是否只有一个进程可以访问数据结构,而客户端只需要从中顺序请求数据?或者,如果可能,将数据分块以创建几个保存块的进程吗?

  • 考虑到现代CPU和内存的体系结构,两种解决方案之间有很大的区别-即共享内存可以由多个内核并行读取吗-意味着没有硬件瓶颈会导致这两种实现大致执行相同的工作吗?


问题答案:
  • 是的,在这种情况下,共享状态可能会更快。但是,只有在您可以放弃锁的情况下,这才是绝对可行的。如果它是“主要是只读的”,那么您需要一个锁(除非您设法编写无锁结构,并被警告它们比锁还要棘手),然后您很难使它执行为作为一个好的消息传递体系结构,速度很快。

  • 是的,您可以编写一个“服务器进程”来共享它。有了真正的轻量级流程,它只需要编写一个小的API即可访问数据。像“拥有”数据的对象(在OOP意义上)那样思考。在较大的情况下(或如果数据存储缓慢),将数据拆分为多个块以增强并行性(在DB圈子中称为“分片”)。

  • 即使NUMA成为主流,每个NUMA单元仍具有越来越多的内核。最大的区别在于,一条消息只能在两个内核之间传递,而必须从所有内核上的缓存中清除锁,从而将其限制为小区间总线延迟(甚至比RAM访问慢)。如果有的话,共享状态/锁变得越来越不可行。

简而言之。。。。习惯了消息传递和服务器进程。

编辑 :重新访问此答案,我想添加一个关于Go文档中的短语:

通过通信共享内存,不要通过共享内存进行通信。

这个想法是:当线程之间共享内存块时,避免并发访问的典型方法是使用锁进行仲裁。Go风格是传递带有引用的消息,线程仅在收到消息时访问内存。它依赖于某种程度的程序员纪律。但是代码看起来很简洁,可以轻松校对,因此调试起来相对容易。

优点是您不必在每条消息上复制大量数据,也不必像某些锁实现那样有效地刷新缓存。现在说这种风格是否导致更高性能的设计还为时过早。(特别是因为当前的Go运行时在线程调度上有些天真)



 类似资料:
  • 问题内容: 我有三个大名单。前一个包含位数组(模块位数组0.8.0),另外两个包含整数数组。 这些数据结构占用相当多的RAM(总计约16GB)。 如果我使用以下方法启动12个子流程: 这是否意味着将为每个子流程复制l1,l2和l3,或者子流程将共享这些列表?或者更直接地说,我将使用16GB还是192GB的RAM? someFunction将从这些列表中读取一些值,然后根据读取的值执行一些计算。结果

  • 通过查看shmget()的手动页面,我了解到shmget()调用在内存中分配了#个页面,这些页面可以在进程之间共享。 它是否要创建内核内存页,并将其映射到进程的本地地址空间?还是为该段保留了相同的进程内存页,并将为其他附加进程共享相同的内存页? 调用shmget()时,内核将保留一定数量的段/页。 调用shmat()时,保留的段映射到进程的地址空间/页。 当一个新进程附加到同一段时,前面创建的内核

  • 当用户退出我的应用程序并且我不再希望他接收到设备通知时,我如何处理这种情况。 我试过了 但我仍然会收到设备注册id的通知。 我还确保这是我应该删除的令牌: 或者干脆)。 我还尝试了,但下一次调用时,我收到空值(在第二次尝试时有效)。 我想,在之后,我可以立即再次调用,但这看起来像是一个黑客。还有一个答案是不应该这样做,但它建议删除显然不起作用的令牌。 那么,正确的处理方法是什么呢?

  • 如果我只有一个内存为25 GB的执行器,并且如果它一次只能运行一个任务,那么是否可以处理(转换和操作)1 TB的数据?如果可以,那么将如何读取它以及中间数据将存储在哪里? 同样对于相同的场景,如果hadoop文件有300个输入拆分,那么RDD中会有300个分区,那么在这种情况下这些分区会在哪里?它会只保留在hadoop磁盘上并且我的单个任务会运行300次吗?

  • 共享内存是两个或多个进程共享的内存。 但是,为什么我们需要共享内存或其他通信方式呢? 重申一下,每个进程都有自己的地址空间,如果任何进程想要将自己的地址空间的某些信息与其他进程进行通信,那么只能通过IPC(进程间通信)技术进行。 我们已经知道,通信可以在相关或不相关的进程之间进行。 通常,使用管道或命名管道来执行相互关联的进程通信。 可以使用命名管道或通过共享内存和消息队列的常用IPC技术执行无关

  • 我尝试编写一个共享内存和信号量程序,该程序一直运行到按下Ctrl+C,即接收到: 当按下Ctrl+C时,被设置为,它会跳出循环并退出。在没有共享内存和信号量的情况下,这可以很好地工作,但是在这里,我从来没有在上获得字符串,只捕获并且它继续运行。 为什么?