当前位置: 首页 > 知识库问答 >
问题:

SparkSQL、Spark Streaming、Solr、Impala,“相似交叉口”查询的正确工具

毛越
2023-03-14

让我们以交通摄像头案例为例。假设,我有一个巨大的数据集,其中包含交通摄像头记录,看起来像:plate_no|camera_id|城市|位置|方向|时间戳|etc|etc。

我希望得到满足以下所有条件的结果:

  1. 像''%George Street'这样的位置
  2. 10月1日

我们现在采用的方法是在SolrCloud中索引数据,然后得到三个结果集,如1

只是想知道什么是这项任务的正确工具,或者有比这更好的方法吗?

共有1个答案

慕容兴贤
2023-03-14

最后,我们找到了一个合理的解决方案,我们将配置单元表放在“Parquet Snappy”格式中,然后,我们只使用SparkSQL查询不同的时间段并获取不同的结果集,如1

在这个案子中,我们完全被Solr打败了。演出结束时相当精彩。

e、 SparkSQL确实支持像query、intesect这样的

 类似资料:
  • 我正在查询具有嵌套对象的集合。域模型如下所示: 我正在使用如下所示的条件进行查询: 同时,我还在研究如何解决这个问题,因为我不能改变文档结构...

  • 问题内容: 我希望有人曾经尝试过这种方法,在我进一步尝试之前可以得到一些建议。 我希望产生类似于sql-server 2000中的交叉表查询的内容。 我有一个类似于以下内容的表结构: 我想做的是通过查询/存储过程来整理数据,以使构建报告更容易。 理想的解决方案将产生如下结果: 问题答案: 我最终使用存储过程(http://www.sqlteam.com/article/dynamic-cross-

  • 我尝试在pyspark中(在Spark 1.5.0上)运行以下SQL查询:

  • 问题内容: 嗨,我坚持这样做,不确定如何去做。 如果我有两个二叉树,该如何检查形状是否相同?即使树结构相等,节点中的数据也无关紧要。 关于如何解决此问题的任何想法? 问题答案: 您可以通过递归轻松地做到这一点。以下代码之所以有效,是因为当且仅当两个各自的子树具有相同的形状时,两个非空树才具有相同的形状。 要检查两棵树,请将其根节点传递给上面的函数。

  • 问题内容: 我目前有一个使用以下sql的硬编码视图: 我的问题是是否可以从角色表中的记录动态生成角色列。 问题答案: 您 可以 做您想做的事,但是我不确定 为什么 要这么做。获得动态列别名后,如何计划引用它们?也就是说,如果您从数据库中提取列别名,那么您将如何使用它们呢?我可能错过了您提出问题的原因。 无论如何,我假设您具有这样的结构: 由此,您可以获得有关用户及其角色的信息: 您还可以为特定角色

  • 问题内容: 我正在一家电子商店,所以我有3张桌子: 1) 2) 3) 所以我需要使用这种算法打印相关商品:使用标签获取与所选商品最相似的商品。最多的标签是相互的-最合适的项目是 因此,的结果应为:, 对于:, 对于:, 而且我不知道如何通过一个查询按相互标记的数量来排序相似的商品 问题答案: 此查询将返回所有具有最大标签数的物品: 请看这里的小提琴。 否则,这将返回所有项目,即使没有共同标签的项目