问题：

Spark SQL连接多表设计

沈弘盛

2023-03-14

dataframe1 = table1 join table2
dataframe2 = dataframe1 join table3
dataframe3 = datamframe2 + filter + agg
dataframe4 = dataframe3 join table4 join table 5 
// finally 
dataframe4.saveAsTable

当我保存final dataframe时，上面所有的dataframe都将被评估。我的做法好吗？还是需要缓存/持久化中间数据流？

共有1个答案

郭元凯

2023-03-14

这是一个非常笼统的问题，很难给出一个明确的答案。

根据表的大小，您希望对任何相对较小的表执行广播提示。您可以通过

table_i.join(broadcast(table_j), ....)

此行为取决于：Now broadcast提示只有在Spark能够计算表的值时才会执行，因此您可能需要cache()。另一个选择是通过Spark检查点，它可以帮助截断本地计划以进行优化（这也允许您从检查点位置恢复作业，这类似于写入HDFS，但有一些开销）。

    --conf spark.kryoserializer.buffer.max=1g

类似资料：

PHP / MYSQL连接多个表

问题内容：我从来没有做过这样的PHP / MYSQL技巧来加入多表。请具有该领域经验的人员帮助： TICKETS 表中的字段：表 RECEPTS中的字段：表 PAYMENTS中的字段：表 CUSTOMERS中的字段：表之间的关系很容易理解：我希望达到的最终结果：我试图做这样的事情，但在某个地方出错：问题答案：您应该可以使用以下方法获得结果：参见带有演示的SQL Fiddl
Hibernate CriteriaBuilder连接多个表

问题内容：我正在尝试使用hibernate条件生成器连接4个表。下面分别是这些表。在这4个表中，我想为MySQL执行以下sql脚本：那么，如何使用Hibernate CriteriaBuilder实现这一目标？请帮助… 预先感谢....... 问题答案： CriteriaBuilder cb = entityManager.getCriteriaBuilder(); CriteriaQue
Hibernate JPA，连接多个表

我的本机查询将类似于：“select*from a inner join b inner join c on a.ida=b.idb and b.lastname=c.lastname and a.name=c.name” 在hibernate中，如果要连接两个表，可以使用@joincolum，如果要通过表B连接表A和表C，可以使用@joincable。因此在HQL中查询将看起来像：“from
多对多连接表的JPQL查询

我有2个具有多对多关系的实体User和AcCountBase。我需要从连接表中选择所有具有选定用户ID的AcCountBase对象。我尝试了一些连接查询，但不起作用。
如何连接多个queryDSL表

> 帐户表：accountId(PK)电子邮件密码 account_profile表：accountId(PK)（fk到account）昵称团体表：articleId（PK）accountId（fk to account）标题内容现在我想要下面的JPQL是查询DSL代码我有实体元模型-QAccount、QAccountProfile、QCommunity 此外，我必须通过分页获得结果，因此应
连接的热点设备列表

我想检索连接到智能手机WiFi热点的所有设备的IP地址。在Android 10及以下版本中，我能够通过执行以下代码获得此列表：然而，在Android 11中，IP命令似乎不再有效(https://developer.android.com/training/articles/user-data-ids#mac-11岁以上）在Android11中，有没有其他方法可以获取已连接客户端的IP地址？

Spark SQL连接多表设计

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档