当前位置: 首页 > 知识库问答 >
问题:

在Spark中加入多个数据帧

齐思淼
2023-03-14

我正在实施一个项目,其中MySql数据被导入到hdfs使用sqoop。它有将近30张桌子。我通过推断模式和注册为临时表来读取每个表作为数据帧。我做这件事有几个问题...1.假设df1到df10的表需要实现几个连接。在MySQL中,查询将是Selecta.id,b.name, c.帐户的帐户名优先级b账单c其中a.id=b.id和c.name=a.name而不是使用sqlContext.sql(选择a.id,b.name, c.帐号名称从帐号a优先级b账单c其中a.id=b.id和c.name=a.name)是否有其他连接所有数据帧有效地基于条件...

共有1个答案

吴同
2023-03-14

我也有类似的问题,我最终使用:

val df_list=ListBuffer[DataFrame]()df_list。托利斯特。减少((a,b)=

你可以在Sqoop上创建一个免费的sql语句,并加入那里的所有内容。或者使用Spark JDBC做同样的工作

 类似资料:
  • 我需要将多个列附加到现有的spark dataframe,其中列名称在列表中给定,假设新列的值是常量,例如给定的输入列和dataframe是 并且在附加两列后,假设 col1 的常量值为“val1”,col2 的常量值为“val2”,则输出数据帧应为 我已经编写了一个函数来追加列 有没有更好的方式,更具功能性的方式去做。 谢啦

  • 嗨,我是拉威尔的新手,我在将数据插入数据库和抛出错误时遇到了麻烦 msgstr"Countable():参数必须是实现可数的数组或对象" 我想在数据库中添加所有注册员工的出勤信息 控制器 叶片输出: 模型类员工出席扩展模型{// } 模型2 命名空间App; 使用Illumb\Database\Elount\Model; 类employee_data扩展模型{//protected$fillabe

  • 我有一个火花数据框。我想将多列连接成一列,其中一些行没有concat中提到的一些列 如果我使用 它只返回 因为输入的第二行和第三行都没有 colA 和 colB 的值

  • 我有一个Spark2.1工作,在这里我维护多个数据集对象/RDD,它们代表我们底层Hive/HDFS数据存储上的不同查询。我注意到,如果我简单地迭代数据集列表,它们一次执行一个。每个单独的查询都是并行操作的,但是我觉得我们没有通过并行运行不同的数据集来最大化我们的资源。

  • 我有一个DF,其中包含一个巨大的可解析元数据,作为Dataframe中的单个字符串列,我们称之为DFA,使用ColmnA。 我想通过一个函数,ClassXYZ = Func1(ColmnA)将ColmnA这一列分成多个列。这个函数返回一个具有多个变量的类ClassXYZ,现在每个变量都必须映射到新的列,比如ColmnA1、ColmnA2等。 我如何通过调用Func1一次来完成从一个数据帧到另一个数