问题：

如何合并 pyspark 和熊猫数据帧

楚方伟

2023-03-14

我有一个非常大的 pyspark 数据帧和一个较小的熊猫数据帧，我读入如下：

df1 = spark.read.csv("/user/me/data1/")
df2 = pd.read_csv("data2.csv")

这两个数据帧都包含标记为“A”和“B”的列。我想创建另一个 pyspark 数据帧，其中只有 df1 中的那些行，其中“A”和“B”列中的条目出现在 df2 中同名的列中。也就是说，使用 df2 的列“A”和“B”过滤 df1。

通常我认为这将是一个连接（通过合并实现），但是如何将熊猫数据帧与 pyspark 数据帧连接起来？

我负担不起将df1转换为熊猫数据帧的费用。

共有2个答案

微生毅然

2023-03-14

您可以使用以下代码片段来获得帮助:

df1 = spark.read.csv("/user/me/data1/")
df2 = pd.read_csv("data2.csv", keep_default_na=False)
df3 = df = sqlContext.createDataFrame(df2, schema)
df = df1.join(df3, ["A", "B"])

曾光远

2023-03-14

您可以在将panda数据帧转换为pyspark数据帧时传递模式，如下所示：

from pyspark.sql.types import *
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)])
df = sqlContext.createDataFrame(pandas_dataframe, schema)

或者你可以使用我在这个函数中使用的黑客：

def create_spark_dataframe(file_name):
    """
    will return the spark dataframe input pandas dataframe
    """
    pandas_data_frame = pd.read_csv(file_name)
    for col in pandas_data_frame.columns:
      if ((pandas_data_frame[col].dtypes != np.int64) & (pandas_data_frame[col].dtypes != np.float64)):
        pandas_data_frame[col] = pandas_data_frame[col].fillna('')

    spark_data_frame = sqlContext.createDataFrame(pandas_data_frame)
    return spark_data_frame

类似资料：

如何在熊猫中合并“（df1＆not df2）”数据帧？

问题内容：我有2个带有通用列/键（x，y）的熊猫数据框df1和df2。我想对键（x，y）进行“（df1＆not df2）”合并，这意味着我希望我的代码返回仅包含df1中而不包含df2中包含（x，y）行的数据框。 SAS具有等效功能谁能优雅地在熊猫中复制相同的功能？如果我们可以在merge（）中指定how =“ left-right”，那就太好了。问题答案：我刚刚升级到10天前发布的版本0
熊猫加入/合并/合并两个数据框

问题内容：我在加入熊猫方面遇到问题，并且试图找出问题所在。假设我有一个x：我应该能够通过简单的连接命令在y = x上将y与索引上的y联接，除了同名具有+2。我希望决赛对双方都有1941个非值。我也尝试过合并，但是我有同样的问题。我以为正确的答案是pandas.concat（[x，y]），但这也不符合我的预期。编辑：如果您在加入方面遇到问题，请阅读下面的韦斯答案。我有一个重复的时间戳。问
熊猫按条件顺序合并数据帧

假设我有2个数据帧： DF1： Col1 | Col2 | Col3 XCN000370/17-18C|XCN0003711718C|0003971718 DF2 Col1 | Col2 | Col3 XCN0003711718C|XCN0003711718C|0003971718 我希望它们像这样合并：首次匹配Col1（DF1）和Col1（DF2）在保持不匹配的情况下，将Col1（DF1）与
合并熊猫数据帧与关键副本

我有两个数据帧，都有一个键列，可能有重复项，但数据帧大部分都有相同的重复键。我希望在该键上合并这些数据帧，但这样做的方式是，当两者具有相同的副本时，这些副本将分别合并。此外，如果一个数据帧的键的副本比另一个多，我希望它的值填充为NaN。例如：我正在尝试获得以下输出所以基本上，我想把复制的K2键当作K2_1，K2_2。。。然后在数据帧上进行how='outer'合并。你知道我怎样才能做到这一点吗
Python：熊猫合并了多个数据框

问题内容：我有不同的数据框，需要根据日期列将它们合并在一起。如果我只有两个数据帧，则可以使用来对三个数据帧进行操作，但是，使用多个数据帧将变得非常复杂且难以读取。所有数据框都有一个共同的列- ，但是它们没有相同数量的行或列，而我只需要每个数据框共有每个日期的那些行。因此，我正在尝试编写一个递归函数，该函数返回一个包含所有数据的数据框，但是它不起作用。那我应该如何合并多个数据框？我试图dif
大熊猫：在多列上合并（合并）两个数据框

问题内容：我正在尝试使用两列来连接两个熊猫数据框：但出现以下错误：任何想法应该是正确的方法吗？谢谢！问题答案：尝试这个 https://pandas.pydata.org/pandas- docs/stable/reference/api/pandas.DataFrame.merge.html left_on：要在左侧DataFrame中加入的标签或列表或类似数组的字段名称。可以是Dat

如何合并 pyspark 和熊猫数据帧

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档