C端筛选器-下推筛选器/WHERE范围查询从Spark到C

暴夕

2023-03-14

我在spark 1.2.1上使用datastax/spark-cassandra-connector和充满1B+行的C*表（datastax-enterprise dse 4.7.0）。我需要对时间戳参数执行范围筛选/Where查询。

使用rdd和JoinWithCassandraTable还是使用数据帧和PushDown？还有别的事吗？

共有1个答案

堵凯

2023-03-14

在我的情况下，JoinWithCassandraTable变成了最好的解决方案。我从以下帖子中学到了很多：http://www.datastax.com/dev/blog/zen-art-spark-maintenance并发布了一个链接问题的答案：Spark JoinWithCassandraTable on TimeStamp partition key Casted

这一切都是为了将来的查询以正确的方式构建C*表（选择好的分区键尤为重要）。

类似资料：

Spark 不推送筛选器（推送筛选器数组为空）

介绍我注意到我们项目中的推送过滤器都不起作用。它解释了为什么执行时间受到影响，因为它读取了数百万次，而它应该将它减少到几千次。为了调试这个问题，我编写了一个小测试，读取CSV文件，过滤内容(下推过滤器)并返回结果。它不能与CSV一起工作，所以我尝试读取一个拼花文件。没有一个能用的。数据文件具有以下结构：名词（noun的缩写）镶木地板文件有相同的结构读取CSV文件为了重现这个问题，我编
查询与筛选器

我看不到任何关于何时应该使用查询或过滤器或两者结合的描述。他们之间有什么区别？谁能解释一下吗？
ElasticSearch嵌套范围筛选器

我试图构造一个ElasticSearch查询，但没有得到预期的结果。任何帮助都将不胜感激！映射详细信息： null null 目前，每个嵌套的轮班文档都包含一个嵌套的calendarBlock文档，其中包含开始和结束日期时间字段，以及一个可以注册该轮班的最大志愿者人数字段。查询我试图构造的查询是经过筛选的查询。从Web上的窗体传入查询字符串。然后，我需要以编程方式将至少三个筛选器附加到这个查
Elasticsearch范围查询和范围筛选器之间的差异

我想查询日期范围内的elasticsearch文档。我现在有两个选择，都很适合我。我已经测试了他们两个。1.范围查询2。距离滤波器因为我现在有一个小数据集，所以无法测试它们的性能。这两者有什么区别？哪一种方法可以更快地检索文档和响应？
Elasticsearch查询筛选器嵌套数组范围最小

鉴于这些文件：如何才能用它们的最小总价值来过滤它们的价格范围？现在我的查询如下所示：所以它从逻辑上返回文档1和2，因为它们的价格都在这个范围内，但我只想得到文档2，因为我希望过滤器逻辑只应用于最低价格。
elasticsearch范围筛选器不正确

所有人。这是一个带有elasitcsearch文档url的简单测试代码

C端筛选器-下推筛选器/WHERE范围查询从Spark到C

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档

C*端筛选器-下推筛选器/WHERE范围查询从Spark到C*

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档

C端筛选器-下推筛选器/WHERE范围查询从Spark到C