当前位置: 首页 > 知识库问答 >
问题:

是否缩小连接数据集的映射?

巫新知
2023-03-14

我有三种不同的解决方案(搜索引擎、nosql数据库和自行开发的语义索引应用程序)来存储文档。

我正在对所有不同的解决方案运行查询,并希望使用类似于SQL Join的方法合并它们。这意味着有时我需要在document_id上加入3个或更多不同的数据集。

你知道Hadoop上的Map Reduce或者类似的东西是不是解决这个问题的最好方法?这些数据集可以包含从1 document_id到100 000的任何地方。

谢谢你的时间!

共有1个答案

平光明
2023-03-14

如果在加入文档之前需要在文档处理过程中应用大量CPU的话,Hadoop是很好的。在同一作业处理文档中(在MAP函数中),您可以相对容易地使用shuffling进程作为join引擎。
同时,100k项的简单连接不需要比普通RDBMS更多的RDBMS。

 类似资料:
  • https://github.com/kite-sdk/kite/blob/master/kite-data/kite-data-mapreduce/src/test/java/org/kitesdk/data/mapreduce/testmapreduce.java 我的代码段如下 我正在使用HDP2.3.2 box,创建组装jar并通过Spark-Submit提交我的应用程序。 我不明白怎么了

  • 这个说法我不清楚。你能更多地解释一下这个用例吗?

  • 问题内容: 一般异步与Q 我正在学习Node.js的开发,并试图将我的大脑包在管理异步“回调地狱”的策略上。我研究的两个主要策略是Caolan McMahon的async模块和Kris Kowal的基于promise的Q模块。 像其他许多人一样,我仍在努力理解何时应该使用一个与另一个。但总的来讲,我发现承诺和基于Q- 代码要 稍微 更直观,所以我在这个方向被移动。 一般映射/连接集合 但是,我仍然

  • 我正在尝试使用Spark数据集API,但在进行简单连接时遇到了一些问题。 假设我有两个带有字段的数据集:,那么在的情况下,我的连接如下所示: 但是,对于数据集,有一个。joinWith方法,但相同的方法不起作用:

  • 我正在学习ode.js开发,并试图让我的大脑围绕管理异步“回调地狱”的策略。我探索的两个主要策略是Caolan McMahon的异步模块和Kris Kowal的基于promise的Q模块。 像许多其他人一样,我仍然在努力理解什么时候应该使用一个和另一个。然而,一般来说,我发现promise和基于Q的代码更直观一些,所以我一直朝着这个方向前进。 但是,我仍然无法使用异步模块的函数来管理集合。来自Ja

  • 我正在使用hikari cp和spring boot应用程序,它有超过1000个并发用户。我已经设置了最大池大小- 当我使用 它显示的最大值为300,等于池大小。它永远不会增加超过最大池。这是故意的吗?我认为池大小意味着保持连接,以便在将来需要数据库请求时可以重用连接,但在需要时可以进行更多连接。 另外,当我删除max pool配置时,我会立即得到- HikariPool-0-连接不可用,请求在3